loading
Evaluating Multi-Agent Systems at Scale
OpenAIが複数のAIシステムを評価する新しい方法を発表。個別の失敗でなく、AI全体の動きを分析し、複雑なAIの理解と改善に役立てます。
OpenAIは、個別の失敗ではなく、トレース(AIの動作記録)の全集団にわたるパターンを分析する、agentic systems向けの「マクロ評価ワークフロー」の概要を説明しました。