Google、PCで動く音声対応AI発表
Google DeepMind Releases Gemma 4 12B: An Encoder-Free Multimodal Model with Native audio that runs on a 16 GB laptop

Google DeepMindが、画像や音声も直接処理する新AI「Gemma 4 12B」を公開。シンプルな構造で16GBのノートPCでも動くため、AI活用が身近に。
Google DeepMindは、従来のエンコーダーを完全に排除した高密度マルチモーダルモデルであるGemma 4 12Bをリリースしました。視覚と音声のデータは直接LLMの基盤に流れ込みます。その結果、16GBのRAMを搭載した一般消費者向けノートPCでエージェント的なワークフローを実行できるモデルが誕生しました。本モデルはApache 2.0ライセンスの下で提供されます。 モデルの概要とアクセス Gemma 4 12Bは、120億パラメータのデコーダーオンリーTransformerです。テキスト、画像、音声、動画をネイティブに処理します。個別の視覚または音声エンコーダーは存在しません。デコーダーはGemma 4 31B Denseモデルと同じ構造を使用しています。これは、エッジフレンドリーなE4Bと、より大規模な26B Mixture of Expertsバリアントとの間のギャップを埋めるものです。 アーキテクチャ: 統合されたエンコーダーフリーのデコーダーオンリーTransformer。モダリティ: テキスト、画像、動画、およびネイティブ音声入力 — 音声に対応した最初の中規模Gemmaです。ハードウェア要件: 16GB VRAMまたはユニファイドメモリ。一般消費者向けGPUノートPCおよびApple Silicon Macで動作します。ライセンス: Apache 2.0。重みはオープンで公開ダウンロード可能です。推論スタック: llama.cpp、MLX、vLLM、Ollama、SGLang、Unsloth、およびLM Studioと互換性があります。ダウンロード: Hugging FaceおよびKaggle。インストラクトバリアントはgoogle/gemma-4-12B-itです。統合: Hugging Face Transformers、LiteRT-LM CLI、およびlitert-lm serveを介したOpenAI互換のローカルAPIサーバー。専用のMulti-Token Prediction (MTP) drafterモデルもリリースされており、ローカルハードウェアでの推論レイテンシを削減します。 アーキテクチャ: エンコーダーフリー設計 これまでのすべての中規模Gemmaモデルは、視覚と音声に個別のTransformerエンコーダーを使用していました。これらのエンコーダーは、レイテンシとパラメータのオーバーヘッドを増加させていました。中規模のGemma 4モデルは5億5000万パラメータの視覚エンコーダーを搭載していました。E2BおよびE4Bモデルには3億パラメータの音声エンコーダーが含まれていました。12Bではこれらすべてがなくなりました。視覚エンベッダー (3500万パラメータ): 生画像は48×48ピクセルのパッチに分割されます。各パッチは、単一の行列乗算によってLLMの隠れ層の次元に投影されます。アテンション層はなく、各パッチは独立して処理されます。空間