Together AIがOSCARを公開:長文用AIの新しいメモリ圧縮技術
Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving

Together AIがOSCARという新しいメモリ圧縮技術を公開し、AIの処理能力を向上させることを目指している。
長文の推論では、KVキャッシュがLLM(文章を書くAI)を提供する際の主なコストの一つとなります。自己回帰的なデコーディング中、キャッシュは文脈の長さ、バッチサイズ、モデルの深さに応じて増加します。バッチサイズが大きく、100Kトークンの長文を数十件の同時リクエストで処理すると、KVキャッシュはGPUメモリの大部分を消費します。これを圧縮することは、バッチサイズを増やし、メモリのトラフィックを減少させる直接的な方法です。明らかなアプローチは量子化ですが、KVキャッシュをINT2(2ビット)精度に押し上げることは実質的に難しいものでした。これまでの方法は、精度が崩れるか、ページ化されたKVキャッシュシステムと互換性のないカスタムサービングレイアウトを必要としました。Together AIのOSCAR(Offline Spectral Covariance-Aware Rotation)は、これらの問題に対処します。
なぜINT2 KVキャッシュ量子化が難しいのかというと、KVのアクティベーションにはチャネルごとの外れ値が含まれています。少数のチャネルが非常に大きな値を持ちますが、ほとんどのチャネルは正常に動作します。INT2量子化を適用すると、表現可能なレベルは4つしかなく、外れ値がスケールファクターを支配します。量子化器は、まれなスパイクに対してその範囲の大部分を無駄にします。通常の値はわずか1つまたは2つの有効レベルに圧縮され、注意の質が大幅に低下します。回転に基づく量子化は、通常はハダマード変換と呼ばれる固定の直交変換を適用することで、外れ値のエネルギーをすべてのチャネルに再分配することでこの問題に対処します。このアプローチはINT4では合理的にうまく機能しますが、INT2ではより深刻な問題が残ります:回転はデータに無知です。これはアクティベーションの範囲を平滑化できますが、注意機構が実際に読み取る方向を知りません。量子化誤差を均等に広げることは、重要性の低い方向に押し込むこととは同じではありません。INT2では、わずか4つのレベルしかないため、その区別がモデルが機能するかどうかを決定します。
OSCARの異なる点は、量子化の前に適用される回転が注意統計から導出されるべきだという重要な観察です。