SWE-bench

운영 중

프로그램을 처음부터 재구축하는 언어 모델의 능력을 평가하는 벤치마크

web•2026년 5월 5일

AIDeveloper Tools

무엇을 하나요

상세

컴파일된 바이너리와 문서만 주어졌을 때 언어 모델이 프로그램의 소스 코드를 재구성할 수 있는 능력을 평가하는 벤치마크를 제공합니다.

누가 쓰면 좋은가

왜 중요한가

복잡한 소프트웨어 엔지니어링 작업에서 AI 능력에 대한 이해를 발전시키고, AI 시스템의 성능을 더 정확하게 평가할 수 있도록 돕습니다.

차별점

바이너리와 문서로부터 프로그램 재구성이라는 독특한 도전에 초점을 맞추어 다른 벤치마크와 차별화됩니다.

출처

GLOBAL · Hacker NewsEN— 2026년 5월 5일방문 →

최초 발견 2026년 5월 5일 · Hacker News