研究tldr-ai2026-05-26
AIがAIのテストを作る新基準
Introducing BenchBench

新しい評価方法「BenchBench」により、AIが他のAIのテストを作る能力が測られ、GPT 5.2だけが優れたテストを作成でき、AIの創造性に大きな差があることが判明しました。
BenchBenchは、モデルがベンチマークをどれだけうまく作成できるかをテストするベンチマークです。これは、モデルの能力を測る優れたベンチマークとして機能するとともに、モデルの自己認識能力のテストでもあります。このベンチマークは、単なる問題解決能力だけでなく、創造性もテストします。テストでは、GPT 5.2だけが唯一の勝者であり、Opus 4.6からGPT 5.5までの他のすべてのモデルは、他のモデルが解決に苦労するような実際に有用なベンチマークを作成するのに苦戦しました。