NVIDIA、異なるAIに知識伝達の新技術
NVIDIA Introduces X-Token: Projection-Guided Cross-Tokenizer KD That Outperforms GOLD by +3.82 Average Points on Llama-3.2-1B

NVIDIAが、異なるAI(文章を区切る方法が違うAI)間で知識を教え合う新技術「X-Token」を発表。これにより、小さなAIがより賢いAIから効率的に学び、AI開発が加速します。
知識蒸留(KD)は、大きな教師モデルから小さな生徒モデルへ「暗黙の知識」を転送します。生徒は、正解だけでなく、教師のトークンに対する完全な出力確率分布から学習します。これは、次のトークンの確率分布に対する位置ごとのKullback–Leibler (KL) divergenceを介して行われます。この定式化には、共有されたtokenizerが必要です。Llama-3.2-1Bに特化した開発者は、Phi-4-miniやQwen3-4Bのような互換性のないtokenizerを持つより強力な教師モデルを活用できません。なぜなら、語彙間でトークンの位置が対応しないためです。これはまた、異なるtokenizerファミリー間での複数教師による蒸留も妨げます。NVIDIAの研究者たちは、cross-tokenizer KD(知識蒸留)のためのlogit分布に基づく手法であるX-Tokenを導入しました。これは標準的なKD lossのドロップイン代替として機能し、補助的な訓練可能なコンポーネントやアーキテクチャの変更を必要としません。X-Tokenが解決している問題 cross-tokenizer KDには、2つの先行アプローチが主流です。ULD(Universal Logit Distillation)は、両方の分布をランク順に並べ替え、L1 distanceを最小化することで、語彙の整合を回避します。これはトークンの同一性を完全に破棄します。GOLDは、スパンアライメントとハイブリッドなlossを追加します。これはトークンを、KL divergenceで訓練される1対1の文字列一致する共通部分集合と、ULDスタイルのランクマッチングで訓練される一致しない残りの部分に分割します。GOLDは現在の最先端技術です。研究チームは、GOLDの設計における2つの構造的欠陥を特定しました。欠陥1:一致しないトークンの失敗 – tokenizerがテキストを異なる方法で分割すると、重要なトークンが一致しない共通でない部分集合に分類されます。Llama-3は複数桁の数字を単一のトークンとしてまとめます — 「201」は1つのトークンです。Qwen3はそれらを桁ごとに分割します:「2」、「0」、「1」。GOLDの下では、Qwen3-4Bが教師である場合、Llamaの2桁および3桁の数字(2桁が100個、3桁が1,000個)の合計1,100個すべてが一致しないセットに分類されます。これらのトークンは2種類の有害な影響を受けます。