EAGLE 3.1登場: AIの考え方のずれを修正する新技術
Meet EAGLE 3.1: The Speculative Decoding Algorithm That Fixes Attention Drift in LLM Inference

EAGLE 3.1が発表され、AIの考え方のずれを修正する新しい技術が導入されました。これにより、AIの出力がより安定し、正確性が向上します。
Speculative decoding(推測的デコーディング)は、大きな言語モデルの推論を高速化する技術です。小さくて速いドラフトモデルがいくつかのトークンを提案し、大きなターゲットモデルがそれらを並行して検証します。受け入れられれば推論が速くなり、拒否されればシステムは優雅にフォールバックします。EAGLEチーム、vLLMチーム、TorchSpecチームは、EAGLE 1、EAGLE 2、EAGLE 3を含むEAGLEシリーズを立ち上げ、研究と実運用システムの両方で最も広く採用されている推測的デコーディングアルゴリズムのファミリーとなりました。今日、このファミリーはEAGLE 3.1の導入により、特定の信頼性アップグレードを受けます。
推測的デコーディングは制御された環境ではうまく機能しますが、異なるチャットテンプレートや長いコンテキスト入力、分布外のシステムプロンプトではパフォーマンスが低下することがよくあります。EAGLEチームは、この脆弱性を「注意のずれ」と呼ばれる現象に起因することを特定しました。推測の深さが増すにつれて、ドラフター(小さなモデル)がシンクトークン(元の文脈のトークン)から自分が生成したトークンに注意を移してしまいます。簡単に言えば、ドラフターは将来のトークンを予測する小さなモデルです。推測が深くなるにつれて、元の文脈ではなく、自分の過去の出力に注意を向け始めます。これにより、受け入れられる長さや出力の安定性が低下します。
二つの根本的な問題が特定されました。第一に、融合された入力表現が、より高い層の隠れ状態がドラフターの入力を支配するにつれて、ますます不均衡になります。第二に、正規化されていない残差経路のために、隠れ状態の大きさが推測ステップを通じて増加します。これらの効果が組み合わさることで、ドラフターは深い推測の深さでますます不安定になります。
EAGLE 3.1の二つのアーキテクチャ的改善は、注意のずれに対処するために導入されました。第一は、各ターゲット隠れ状態の後とFC層の前でのFC正規化です。第二は、ポストノルム隠れ状態を次のデコーディングステップに供給することです。FC正規化は、ドラフターがターゲットモデルから受け取る隠れ状態を安定させます。これがなければ、