研究tldr-ai2026-05-21
AI学習、データ選びの常識覆る
A Bitter Lesson for Data Filtering

新しい研究で、AIが大量のデータから学ぶ際、質の低いデータを選別する必要がない可能性が示されました。計算能力があれば、どんなデータでもAIの成長に役立つかもしれません。
新たなスケーリング研究により、計算資源が豊富でデータが不足している状況では、大規模なモデルの事前学習においてデータフィルタリングを行わないことが最適である可能性が明らかになりました。大規模なパラメータを持つモデルは、低品質なデータや邪魔になるデータを含めることを許容するだけでなく、それらから恩恵を受けることが分かりました。一般的な考えとは異なり、十分な計算資源があれば、低品質なデータを除外する必要はないかもしれません。