ホームへ戻る

SWE-bench

運用中

プログラムをゼロから再構築する言語モデルの能力を評価するベンチマーク。

web2026年5月5日
AIDeveloper Tools
何をするのか

詳細

コンパイル済みバイナリとドキュメンテーションのみを与えられた場合に、言語モデルがプログラムのソースコードを再構築できる能力を評価するベンチマークを提供します。

誰に向いているか

こんな人に向いています

  • AI研究者
  • 開発者
なぜ重要か

なぜこのツールを選んだのか

複雑なソフトウェアエンジニアリングタスクにおけるAIの能力の理解を進め、AIシステムの性能をより正確に評価することを可能にします。

差別化ポイント

何が違うのか

バイナリとドキュメンテーションからのプログラム再構築という独特の課題に焦点を当て、他のベンチマークと差別化しています。

出典

どこで見つけたか

出典

GLOBAL · Hacker NewsEN2026年5月5日訪問

最初に発見 2026年5月5日 · Hacker News