研究tldr-ai2026-05-05

AIツールの性能を比較した研究

Model-Harness-Fit

AIツールの性能を比較する研究が発表され、特定の条件が性能に影響を与えることが示されました。

Bustamanteは、Codex CLI、Claude Code、GitHub Copilot CLIを分析し、最前線の研究所が特定のハーネスに対してモデルをトレーニングしたことを示しています。これにより、ツール名、スキーマ、引用タグ、メモリ儀式、システムプロンプトの構造が重みの中に組み込まれています。Terminal-Bench 2.0のデータがこの仮説を裏付けており、Claude Opus 4.6はForgeCodeで79.8%を記録し、Capyでは75.3%でした。また、Cursorはハーネスを変更するだけで「トップ30からトップ5」にランクアップしました。一方、OpenAIのモデルはパッチベースのファイル編集をデフォルトとし、Anthropicのモデルは文字列置換に依存しており、ミスマッチが推論トークンに影響を与えています。

元記事を読む→

この記事について質問

記事の内容に答えます。記事外のことは都度ウェブで調べます。