NVIDIA、AIの記憶改善技術を発表
NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

NVIDIAがAIの記憶を効率化する「Gated DeltaNet-2」を発表。情報の忘れ方と書き込み方を分離し、少ない計算で高性能な文章処理を実現。
Linear attentionは、softmax attentionの無制限なKVキャッシュを固定サイズの再帰状態に置き換えます。これにより、シーケンスの混合は線形時間、デコーディングは一定のメモリで行えるようになります。難しいのは何を忘れるかではなく、既存の関連性を損なわずに圧縮されたメモリを編集する方法です。NVIDIAは、このボトルネックを解消するlinear attention層であるGated DeltaNet-2をリリースしました。このモデルは、アクティブなメモリ編集を2つのチャネルごとのゲートに分離します。1.3Bパラメータで100BのFineWeb-Eduトークンを使って訓練され、研究ベンチマークスイート全体でMamba-2、Gated DeltaNet、KDA、Mamba-3を上回る性能を発揮します。 デルタルールモデルにおけるスカラーゲートの問題 再帰的なlinear attention層は、行列状態 S t を格納し、クエリでそれを読み取ります。DeltaNetは、現在のキーに関連付けられている値を減算することで、アクティブな編集を追加します。これは、上書きする量を制御するためにスカラーのステップサイズ β t を使用します。Mamba-2は、グローバルな忘却のためにデータ依存のスカラー減衰 α t を追加します。Gated DeltaNetは両方の操作を組み合わせましたが、両方のゲートはヘッドごとにスカラーのままでした。Kimi Delta Attention (KDA)は減衰側を改良します。これはスカラー α t をチャネルごとのベクトルに置き換えます。KDAはアクティブな編集のために単一のスカラー β t を保持しています。このスカラーは2つの異なることを同時に制御します。キー側でどれだけ古いコンテンツを消去するかを決定します。また、値側でどれだけ新しいコンテンツをコミットするかを決定します。これら2つの決定は、状態の異なる軸に作用します。これらを一緒に結びつけることは、デルタルールの特性ではなく、モデリング上の制約です。https://github.com/NVlabs/GatedDeltaNet-2/blob/main/paper/GDN2_paper.pdf Gated Delta Rule-2: 1つではなく2つのゲート Gated DeltaNet-2は、Gated Delta Rule-2を通じて2つの決定を分離します。キー軸にチャネルごとの消去ゲート b t ∈ [0,1] d k を導入します。また、値軸にチャネルごとの書き込みゲート w t ∈ [0,1] d v を導入します。両方のゲートは、トークン表現のシグモイド射影によって生成されます。更新はアクティブな処理の前に減衰を適用します。