GoogleがノートPC向けマルチモーダルモデル「Gemma 4 12B」を発表
- •GoogleはノートPCでのローカル実行を想定した中規模マルチモーダルモデル「Gemma 4 12B」を公開した。
- •同モデルはエンコーダーを排除したアーキテクチャを採用し、音声と視覚情報を言語モデル本体で直接処理する。
- •16GBのVRAMで動作し、26BのMoEモデルに近い性能を実現している。
Google DeepMindは2026年6月3日、ノートPCでのローカル動作を目的とした中規模マルチモーダルモデル「Gemma 4 12B」を公開した。このモデルは16GBのVRAMまたはユニファイドメモリを搭載したハードウェアに最適化されており、軽量なE4Bと大規模な26BのMoEモデルの間に位置づけられる。Gemma 4 12Bは音声入力のネイティブサポートやエージェントワークフローに対応し、26Bモデルに肉薄する性能を誇る。
最大の特徴はエンコーダーを廃したアーキテクチャにある。従来の画像や音声処理に専用エンコーダーを用いるシステムとは異なり、Gemma 4 12Bはこれらの入力を言語モデルの基幹部分に直接統合する。視覚処理には単一の行列演算と正規化を含む軽量な埋め込みモジュールを使用し、音声処理では生の信号をテキストトークンと同じ次元空間に投影することで、専用エンコーダーを不要とした。
推論の遅延を抑えるため、複数の未来トークンを同時に予測する技術であるMulti-Token Prediction(MTP)ドラフターが組み込まれている。モデルはApache 2.0ライセンスの下で提供され、Hugging FaceおよびKaggleからウェイトを入手可能だ。開発者はHugging Face Transformersやllama.cpp、MLX、SGLang、vLLMといったツールでモデルを統合できる。Googleはエージェント開発を支援するSkills Repositoryも同時に公開し、本番環境でのデプロイはGoogle CloudのGemini Enterprise Agent Platform、Cloud Run、GKEでサポートされる。なお、Gemmaシリーズの累計ダウンロード数は1億5000万回を超えた。