SWE-bench
運用中プログラムをゼロから再構築する言語モデルの能力を評価するベンチマーク。
AIDeveloper Tools
何をするのか
詳細
コンパイル済みバイナリとドキュメンテーションのみを与えられた場合に、言語モデルがプログラムのソースコードを再構築できる能力を評価するベンチマークを提供します。
誰に向いているか
こんな人に向いています
- •AI研究者
- •開発者
なぜ重要か
なぜこのツールを選んだのか
複雑なソフトウェアエンジニアリングタスクにおけるAIの能力の理解を進め、AIシステムの性能をより正確に評価することを可能にします。
差別化ポイント
何が違うのか
バイナリとドキュメンテーションからのプログラム再構築という独特の課題に焦点を当て、他のベンチマークと差別化しています。
出典