研究huggingface2026-06-04
AI評価データが大規模更新
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios
AIの賢さを測るデータ「EVA-Bench 2.0」が更新。3分野、121の道具、213の状況でAIの複雑な能力を正確に評価可能。
- ・AIの能力を測る新しいデータセット「EVA-Bench 2.0」が登場しました。
- ・3つの分野、121の道具、213の状況を網羅し、より複雑なAIの動きを評価します。
- ・これにより、AIが様々な状況でどれだけ賢く動けるか、より正確に判断できます。