研究tldr-ai2026-05-27
AIのコード力測る新基準
DeepSWE

DeepSWEは、AIが複雑なソフトウェア開発タスクをどれだけこなせるかを測る新しい評価基準です。これにより、AIの実際のプログラミング能力をより正確に比較できるようになります。
DeepSWEは、長期にわたるソフトウェアエンジニアリングのための洗練されたベンチマークを導入します。このベンチマークは、5つの言語にわたる91のリポジトリにまたがるタスクを含み、どのモデルも事前に解決策を見ていないことを保証します。DeepSWEは4つの主要な改善点を提供します。タスクはcontamination-freeであり、現実世界の複雑さを反映し、多様なリポジトリをカバーし、信頼性の高い検証プロセスを採用しています。DeepSWEは、SWE-Bench Proのような既存のベンチマークで見られるクラスタリングとは対照的に、コーディングエージェントに対してより明確な分離指標を提供します。