Google、Gemma 4の推論速度を劇的に向上させる新手法を発表
- •GoogleがGemma 4モデル向けに「Multi-Token Prediction(MTP)」を導入し、推論レイテンシを大幅に削減。
- •MTPドラフト機能により、出力品質や論理性能を犠牲にすることなく、テキスト生成速度を最大3倍まで高速化。
- •オープンソースの新たなアーキテクチャがターゲットモデルとドラフトモデル間でKVキャッシュを共有し、計算効率を最適化。
生成AIにおける速度向上への挑戦は、本質的にメモリ帯域幅との闘いである。大規模言語モデルと対話する際、システムは「メモリバウンド」の状態に陥ることが多い。これは、プロセッサが実際に計算を行う時間よりも、メモリバンクと処理ユニットの間でデータを転送する時間が圧倒的に長くなることを意味する。このため、複雑なモデルは特にローカル環境や制約のあるハードウェア上で動作させる際、動作が鈍く感じられるのだ。Googleは、Gemma 4ファミリー向けにMulti-Token Prediction(MTP)を導入することで、このボトルネックを解消する重要な一歩を踏み出した。
今回のアップデートの核となるのが「Speculative Decoding(投機的デコーディング)」と呼ばれる手法である。通常の大規模言語モデルは、テキストを一度に1トークンずつ生成するため、順次処理となりどうしても時間がかかる。Speculative Decodingはこのプロセスを一変させる。高性能なターゲットモデルと、軽量な「ドラフトモデル」をペアにし、メインモデルが難しいタスクを処理している間に、ドラフトモデルが次に来るトークンを先読みして推測するのだ。
その後、メインモデルがその推測を一度の効率的な操作で検証する。推測が正しければ、一度の計算コストで複数の出力を得られるため、アプリケーション全体の速度が劇的に向上する。Googleの報告によれば、Gemma 4ファミリーでは品質や論理能力を一切損なうことなく、最大3倍の高速化を実現した。この仕組みにおいて「KV Cache」という重要なメモリバンクを両モデル間で共有することで、重複する計算を完全に回避している。
この最適化レベルは、リアルタイムの音声インターフェースや迅速なコーディング支援、あるいは複雑な思考を遅延なく繋ぐ必要がある自律エージェントを構築する開発者にとって極めて重要である。今回の発表は、単なる性能指標の向上に留まらない。GoogleはこれらのMTPドラフト機能の実装をApache 2.0ライセンスで公開し、高効率なAIインフラの民主化を進めている。
これにより、開発者は「フロンティアクラス」の知能を維持したまま、個人のワークステーションや一般的なGPU、さらにはエッジデバイス上で堅牢なモデルを運用可能になる。業界の潮流は、単にモデルを巨大化させることから、既存の知能を実環境でいかに利用しやすくするかという方向にシフトしているのだ。