研究tldr-ai2026-05-05
AIツールの性能を比較した研究
Model-Harness-Fit

AIツールの性能を比較する研究が発表され、特定の条件が性能に影響を与えることが示されました。
Bustamanteは、Codex CLI、Claude Code、GitHub Copilot CLIを分析し、最前線の研究所が特定のハーネスに対してモデルをトレーニングしたことを示しています。これにより、ツール名、スキーマ、引用タグ、メモリ儀式、システムプロンプトの構造が重みの中に組み込まれています。Terminal-Bench 2.0のデータがこの仮説を裏付けており、Claude Opus 4.6はForgeCodeで79.8%を記録し、Capyでは75.3%でした。また、Cursorはハーネスを変更するだけで「トップ30からトップ5」にランクアップしました。一方、OpenAIのモデルはパッチベースのファイル編集をデフォルトとし、Anthropicのモデルは文字列置換に依存しており、ミスマッチが推論トークンに影響を与えています。