SWE-bench

運用中

プログラムをゼロから再構築する言語モデルの能力を評価するベンチマーク。

web•2026年5月5日

AIDeveloper Tools

何をするのか

詳細

コンパイル済みバイナリとドキュメンテーションのみを与えられた場合に、言語モデルがプログラムのソースコードを再構築できる能力を評価するベンチマークを提供します。

誰に向いているか

なぜ重要か

複雑なソフトウェアエンジニアリングタスクにおけるAIの能力の理解を進め、AIシステムの性能をより正確に評価することを可能にします。

差別化ポイント

バイナリとドキュメンテーションからのプログラム再構築という独特の課題に焦点を当て、他のベンチマークと差別化しています。

出典

GLOBAL · Hacker NewsEN— 2026年5月5日訪問 →

最初に発見 2026年5月5日 · Hacker News