NVIDIA、ロボット用AI「Cosmos 3」公開
NVIDIA Releases Cosmos 3: A Two-Tower Mixture-of-Transformers Foundation Model Unifying Physical Reasoning, World Generation, and Action Generation

NVIDIAが物理世界を理解し行動を生み出す新しいAI「Cosmos 3」を公開。ロボットや自動運転車が効率よく現実世界で動くための重要な一歩となる。
NVIDIAのAIチームはCosmos 3をリリースしました。これは物理AI向けのオムニモーダルなワールドモデルのファミリーです。このモデルは、物理的な推論、ワールド生成、および行動生成の3つの機能を組み合わせています。これら3つの機能はすべて、一つのオープンモデル内に存在します。NVIDIAは、チェックポイント、トレーニングスクリプト、デプロイメントツール、およびデータセットをオープンソース化しました。Cosmos 3のリリースは、ロボット工学、自動運転車、倉庫監視のチームを対象としています。NVIDIA Cosmos 3のような物理AIシステムは、行動する前に世界を理解する必要があります。ロボットや車両は、知覚し、予測し、そして行動する必要があります。以前のCosmosリリースでは、これらのタスクは別々のモデルに分割されていました。Cosmos 3は、Mixture-of-Transformers (MoT) アーキテクチャでこれらを統合します。このアーキテクチャは2つのタワーを中心に構築されています。reasoner towerはvision-language model (VLM) です。これは、autoregressive architectureを使用して画像、ビデオ、およびテキストを解釈します。動き、オブジェクトの相互作用、およびその他の物理的コンテキストを理解します。NVIDIAチームは、このタワーをモデルの「脳」と表現しています。generator towerは、将来の観測と行動シーケンスを生成します。これは、物理を考慮したビデオと行動のために、diffusion-based processを使用します。これらの出力は、reasoner towerの理解に基づいて調整されます。情報はreasonerからgeneratorへ一方向に流れます。reasonerは単独で実行できます。generatorは、ガイド付き生成のために常に両方のタワーをアクティブにします。したがって、単一のモデルで推論と生成を一緒に処理できます。https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3
モデルファミリー
NVIDIAチームは、Edge、Nano、Superの3つのモデルスケールを説明しています。それぞれがデュアルタワーのMixture-of-Transformers設計を使用しています。2つのタワーは、事前学習済みのQwen3-VLの重みから初期化されます。これにより、バックボーンのtransformerのパラメータ数がほぼ2倍になります。Cosmos3-Nanoは、密な8B transformer上に構築された16Bモデルです。Qwen3-VL 8Bアーキテクチャを適応させています。Nanoは、ワークステーションGPUでの効率的な推論をターゲットとしています。これは、次のようなハードウェアで動作します