モデルmarktechpost2026-06-04

NVIDIA、長時間作業に強いAI発表

NVIDIA AI Releases Nemotron 3 Ultra: An Open 550B Mixture-of-Experts Hybrid Mamba-Transformer for Long-Running Agents

NVIDIAが新しいAI「Nemotron 3 Ultra」を公開。AIが長時間にわたる作業を、約6倍速く、安く、高い精度で実行できるようになるため重要。

NVIDIAは、Nemotron 3ファミリーで最大のモデルであるNemotron 3 Ultraをリリースしました。これは、計画を立て、ツールを呼び出し、多くのターンにわたって推論を行う長時間実行エージェントという特定の課題を対象としています。エージェントが長く実行されるにつれて、トークン数が増加し、推論コストが上昇します。Nemotron 3 Ultraは、推論をより速く、より安価にしながら、高い精度を維持するように設計されています。 Nemotron 3 Ultraとは Nemotron 3 Ultraは、合計5500億のパラメーターを持つMixture-of-Experts（MoE）モデルです。トークンあたり550億のパラメーターのみがアクティブになります。MoE設計により、アクティブなパラメーターあたりの精度が向上します。純粋なTransformerではなく、ハイブリッドのMamba-Attentionアーキテクチャを使用しています。Mambaレイヤーは、準二次的なスケーリングで長いシーケンスを処理します。大規模なコンテキストでの正確なリコールのためには、いくつかのAttentionレイヤーが保持されています。このモデルは20兆のテキストトークンで事前学習されました。その後、コンテキストは100万トークンに拡張されました。Supervised Fine-Tuning（SFT）、Reinforcement Learning（RL）、およびMulti-teacher On-Policy Distillation（MOPD）を使用して事後学習されました。NVIDIAチームは、同等のオープンLLMと比較して、同等の精度で最大約6倍高い推論スループットを報告しています。https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf アーキテクチャこのモデルは108層と8,192のモデル次元を持っています。64のクエリヘッドと2つのキーバリューヘッドのみを使用しており、これによりKVキャッシュが小さく保たれます。各MoEレイヤーには512のエキスパートが含まれており、トークンあたり上位22がアクティブになります。3つの設計上の選択肢が際立っています。LatentMoEは、エキスパートをより効率的にルーティングします。これは、隠れ次元の幅を犠牲にすることで、固定された推論コストでより多くのルーティングされたエキスパートを獲得します。NVIDIAチームは、標準的な粒状MoEよりもパラメーターあたりの精度が優れていると報告しています。Multi-Token Prediction（MTP）は、1回のフォワードパスで複数の将来のトークンを予測します。これにより、より高速な生成のためのネイティブな投機的デコーディングが可能になります。2つのMTPヘッドは、トレーニング中にパラメーターを共有します。NVFP4事前学習では、重みに対して2次元ブロック量子化を伴うE2M1 4ビットデータ型を使用します。NVIDIAチームはt

元記事を読む→

この記事について質問

記事の内容に答えます。記事外のことは都度ウェブで調べます。