MiniMax、M3公開。100万文字処理AI
MiniMax Releases MiniMax M3 with MSA Architecture Supporting 1M-Token Context, Native Multimodality, and Agentic Coding

MiniMaxが新しいAI「M3」を発表。100万文字の長文や画像・動画を一度に処理でき、AIがより複雑な仕事を効率よくこなせるようになります。
MiniMaxは2026年6月1日にMiniMax M3を正式にリリースしました。このモデルは、M3に1M-tokenのコンテキストウィンドウを提供する新しい疎なattentionアーキテクチャであるMSA(MiniMax Sparse Attention)を導入しています。M3はまた、画像や動画の入力、およびデスクトップコンピュータの操作をネイティブにサポートしています。APIは現在利用可能です。MiniMax M3は、MiniMax Code、MiniMax Token Plan、およびMiniMax APIを通じて本日より利用できます。これはM2.7に続くMシリーズの次世代モデルです。MiniMaxはM3を、フロンティアレベルのコーディング性能、1M-tokenのコンテキストウィンドウ、およびネイティブなマルチモーダル入力を単一のアーキテクチャに組み合わせたオープンウェイトモデルとして位置づけています。MiniMaxによると、これは初めてのことです。対応するモデルウェイトと技術レポートは、リリースから10日以内に公開される予定です。MSA: MiniMax Sparse Attention。MiniMax M3における中心的なアーキテクチャの変更はMSA(MiniMax Sparse Attention)です。標準のフルattentionは二次的な計算複雑度を持ちます。つまり、コンテキスト長が長くなるにつれて、計算コストはシーケンス長の二乗で増加します。MSAはこれを解決するために設計されています。疎なattentionメカニズムは通常、attentionを計算する前に事前フィルタリング段階を追加し、完全な二次コストを回避します。MiniMaxチームは、DSAやMoBAのようなアプローチと比較して、MSAはKVキャッシュをより正確にブロックに分割し、より高い効果的なコンテキストカバレッジを達成すると述べています。オペレータレベルでは、MSAは「KV outer gather Q」アプローチを使用します。KVブロックは、それらにヒットするクエリを集約するための外側のループとして機能します。各ブロックは一度だけ読み取られ、メモリアクセスは連続的です。MiniMaxチームは、MiniMax M3のヘッド構成において、Flash-Sparse-Attentionやflash-mobaのようなオープンソースの実装よりも4倍以上高速であると報告しています。その結果、100万トークンのコンテキスト長で、MiniMax M3のトークンあたりの計算量は、前世代のM2モデルの20分の1です。MiniMaxチームは、1M-tokenのコンテキストにおいて、プレフィル段階で9倍以上、デコード段階で15倍以上の速度向上を報告しています。