NVIDIA、長時間作業に強いAI発表
NVIDIA AI Releases Nemotron 3 Ultra: An Open 550B Mixture-of-Experts Hybrid Mamba-Transformer for Long-Running Agents

NVIDIAが新しいAI「Nemotron 3 Ultra」を公開。AIが長時間にわたる作業を、約6倍速く、安く、高い精度で実行できるようになるため重要。
NVIDIAは、Nemotron 3ファミリーで最大のモデルであるNemotron 3 Ultraをリリースしました。これは、計画を立て、ツールを呼び出し、多くのターンにわたって推論を行う長時間実行エージェントという特定の課題を対象としています。エージェントが長く実行されるにつれて、トークン数が増加し、推論コストが上昇します。Nemotron 3 Ultraは、推論をより速く、より安価にしながら、高い精度を維持するように設計されています。 Nemotron 3 Ultraとは Nemotron 3 Ultraは、合計5500億のパラメーターを持つMixture-of-Experts(MoE)モデルです。トークンあたり550億のパラメーターのみがアクティブになります。MoE設計により、アクティブなパラメーターあたりの精度が向上します。純粋なTransformerではなく、ハイブリッドのMamba-Attentionアーキテクチャを使用しています。Mambaレイヤーは、準二次的なスケーリングで長いシーケンスを処理します。大規模なコンテキストでの正確なリコールのためには、いくつかのAttentionレイヤーが保持されています。このモデルは20兆のテキストトークンで事前学習されました。その後、コンテキストは100万トークンに拡張されました。Supervised Fine-Tuning(SFT)、Reinforcement Learning(RL)、およびMulti-teacher On-Policy Distillation(MOPD)を使用して事後学習されました。NVIDIAチームは、同等のオープンLLMと比較して、同等の精度で最大約6倍高い推論スループットを報告しています。https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf アーキテクチャ このモデルは108層と8,192のモデル次元を持っています。64のクエリヘッドと2つのキーバリューヘッドのみを使用しており、これによりKVキャッシュが小さく保たれます。各MoEレイヤーには512のエキスパートが含まれており、トークンあたり上位22がアクティブになります。3つの設計上の選択肢が際立っています。LatentMoEは、エキスパートをより効率的にルーティングします。これは、隠れ次元の幅を犠牲にすることで、固定された推論コストでより多くのルーティングされたエキスパートを獲得します。NVIDIAチームは、標準的な粒状MoEよりもパラメーターあたりの精度が優れていると報告しています。Multi-Token Prediction(MTP)は、1回のフォワードパスで複数の将来のトークンを予測します。これにより、より高速な生成のためのネイティブな投機的デコーディングが可能になります。2つのMTPヘッドは、トレーニング中にパラメーターを共有します。NVFP4事前学習では、重みに対して2次元ブロック量子化を伴うE2M1 4ビットデータ型を使用します。NVIDIAチームはt