SWE-bench
운영 중프로그램을 처음부터 재구축하는 언어 모델의 능력을 평가하는 벤치마크
AIDeveloper Tools
무엇을 하나요
상세
컴파일된 바이너리와 문서만 주어졌을 때 언어 모델이 프로그램의 소스 코드를 재구성할 수 있는 능력을 평가하는 벤치마크를 제공합니다.
누가 쓰면 좋은가
이런 사용자에게 맞습니다
- •AI 연구자
- •개발자
왜 중요한가
왜 이 툴을 골랐나
복잡한 소프트웨어 엔지니어링 작업에서 AI 능력에 대한 이해를 발전시키고, AI 시스템의 성능을 더 정확하게 평가할 수 있도록 돕습니다.
차별점
무엇이 다른가
바이너리와 문서로부터 프로그램 재구성이라는 독특한 도전에 초점을 맞추어 다른 벤치마크와 차별화됩니다.
출처