新しいAI手法「Parallax」が効率的な注意機構を実現
Parallax: A Parameterized Local Linear Attention That Keeps Softmax and Adds a Learned Covariance Correction Branch

新しいAI手法「Parallax」が、従来の注意機構を改良し、計算コストを抑えつつ性能を向上させることを目指しています。
Transformerの注意機構は2017年からほとんど変わっていません。効率性を追求する多くの研究は、ソフトマックス注意を完全に置き換えようとしていますが、新しい論文は異なるアプローチを取っています。ソフトマックス注意を維持しつつ、修正ブランチを追加しています。ノースウェスタン大学、Tilde Research、ワシントン大学の研究チームは、「Parallax」と呼ばれるパラメータ化されたローカルリニア注意を導入し、LLMの事前学習にスケールし、Muonと共同設計しています。Parallaxは、計算を削減することで効率性を追求するのではなく、意図的に計算を追加し、現代のGPUで実行する際のコストを安くすることを目指しています。
Parallaxはローカルリニア注意(LLA)に基づいています。LLAはテスト時の回帰フレームワークから生まれました。このフレームワークでは、注意をキーとバリューのペアに対する回帰ソルバーとして読み取ります。この視点では、キーはトレーニングデータポイントであり、バリューはラベルです。クエリはテストポイントです。ソフトマックス注意は、ナダラヤ-ワトソンと呼ばれる非パラメトリック推定器です。これは、各クエリに対してローカルな定数関数をフィットさせます。LLAはそのローカルな定数推定をローカルな線形推定にアップグレードします。研究チームは、これが統合平均二乗誤差を厳密に小さくすることを証明しています。この利点は、連想メモリのバイアス-バリアンスのトレードオフを改善することです。しかし、LLAにはスケール時に問題があります。その正確な前方計算は、各クエリに対して線形システムを解く必要があります。これには並列共役勾配(CG)ソルバーを使用します。CGソルバーは、集中的な入出力、厳しい正則化-表現力のトレードオフ、低精度の互換性という3つの問題を引き起こします。Parallaxはソルバーを削除し、代わりに追加の投影行列を学習します。研究チームはこれをρ i = W R x i と書きます。ここでW Rは、層の入力からKV共分散を直接プローブする学習可能な行列です。したがって、Parallaxはローカルリニアの原則を維持します。ただし、各クエリの解決を学習されたクエリのようなプロジェクターに置き換えています。これにより、よりシンプルで効率的、かつ実装が容易になります。