研究tldr-ai2026-05-22
AIの頭の中の形を捉えられるか?
Can SAEs Capture Neural Geometry?

SAEという技術がAIの内部構造(AIの頭の中の形)をどう表現するかを研究し、AIの働きを深く理解する手がかりになることが分かりました。
Sparse autoencoders (SAEs)は、shattering、compact capture、dilutionといったいくつかの異なる方法を用いてcurved manifoldsを表現することで、neural geometryの探求に役立ちます。この研究は、各SAE featureがwhole manifoldのほんの一部しか表現していないことを明らかにしており、全体構造を理解するためにはfeatureのclusteringが必要であることを示しています。これらの発見を活用したunsupervised pipelineは、neural networksのinternal geometric structuresをそれ自身の言葉で再構築することにより、私たちのneural networksに対する理解を深める可能性があります。