GoogleのAI、Gemma 4を小型化
Google DeepMind Releases Gemma 4 QAT Checkpoints: Q4_0 and a New Mobile Format Cut On-Device Memory

Google DeepMindがGemma 4のAIを小型化する技術を公開し、スマホやパソコンなど小さな機器でも高品質なAIが動くようになりました。
Google DeepMindはGemma 4ファミリー向けのQuantization-Aware Training (QAT) チェックポイントをリリースしました。このリリースは、エッジデバイスや消費者向けGPUでのローカル展開を対象としています。これは4月のGemma 4のローンチと、その2日前の12Bモデルに続くものです。私たちは、公開されている数値のみを使用して、利用可能なGemma 4エッジモデルの形式を比較しました。目標は単純でした。各精度レベルがメモリにどれだけのコストをかけるかを示し、次にQATが実際に何を変えるかを示すことです。QATが実際にすること Quantizationは、重みの精度を下げることでモデルを縮小します。標準的なPost-Training Quantization (PTQ) は、完成したモデルを圧縮します。これはしばしば品質を低下させます。QATは代わりに、トレーニング中にQuantizationをシミュレートします。モデルは精度損失を補償することを学習します。GoogleのAIチームは、QATの結果が標準的なPTQのベースラインよりも高い全体的な品質をもたらすと述べています。Googleは、発表でGemma 4 QATのベンチマークスコアを公開しませんでした。参考までに、Gemma 3 QATはllama.cpp評価を使用してQ4_0のperplexity低下を54%削減しました。私たちはこれを前世代の先例としてのみ引用します。比較タスク Gemma 4 E2BとE4Bを3つの形式で比較します。形式はBF16、Q4_0 QAT、および新しいモバイルQATスキーマです。メモリフットプリント、品質保持、オンデバイスアクセシビリティに基づいてランク付けします。公開されている数値のみを使用します。メモリ結果 形式 E2B E4B 根拠 BF16 (16ビット) 9.6 GB 15 GB 公式Gemma 4ドキュメント Q4_0 (4ビット, QAT) 3.2 GB 5 GB 公式Gemma 4ドキュメント モバイル (QAT, E2B) 約1 GB — QAT発表 Q4_0の数値はPTQ Q4_0のフットプリントと一致します。QATは特定の形式でのサイズを変更しません。そのサイズでの品質を向上させます。新しいモバイルスキーマは追加の削減を実現します。このモバイルスキーマを使用することで、GoogleはGemma 4 E2Bを約1GBに削減しました。開発者はさらに削減することも可能です。Per-Layer Embeddingsなしのテキストのみのモデルは、オーディオおよびビジョンエンコーダーを削除することで1GB未満になります。形式ごとの内訳 BF16は品質のベースラインです。E2Bは9.6 GB、E4Bは15 GBを必要とします。これは参照点であり、電話の展開ターゲットではありません。Q4_0