この記事の要点は？

Q: この記事の要点は？

Google、Gemma 4推論を最大3倍高速化する「Multi-Token Prediction」を公開 軽量ドラフトモデルが先読みし、ターゲットモデルが並列検証する投機的デコーディングを採用 低遅延チャットやエージェント用途を想定し、Hugging Face等でモデル重みを公開

Google、Gemma 4推論を最大3倍高速化する「Multi-Token Prediction」を公開軽量ドラフトモデルが先読みし、ターゲットモデルが並列検証する投機的デコーディングを採用低遅延チャットやエージェント用途を想定し、Hugging Face等でモデル重みを公開

Google、Gemma 4向け推論高速化技術「MTP」を公開

Googleは2026年5月5日（現地時間）、オープンモデル「Gemma 4」ファミリー向けに、推論速度を向上させる「Multi-Token Prediction（MTP）drafters」を公開した。この技術は、軽量なドラフトモデルが将来のトークンを先読みし、大型のターゲットモデルがそれらを並列に検証する仕組みをとる。Googleの発表によれば、出力品質や推論ロジックを損なうことなく、推論の高速化を最大3倍実現するとしている。

MTPは、2026年3月に発表されたGemma 4ファミリーに対応する。Gemma 4はE2B、E4B、31B、26B A4Bの4サイズで構成され、4月16日にこれらのモデル向けMTPがリリースされた。標準的なLLMの推論では、トークンを1つ生成するごとに大量のパラメータをメモリから計算ユニットへ移動する必要があり、これが帯域幅のボトルネックとなっていた。MTPは「Speculative Decoding（投機的デコーディング）」とも呼ばれ、軽量モデルが先行して生成した複数トークンの候補を、ターゲットモデルが並列に検証することで、一度の処理で複数トークンを出力可能にする。

この手法では、ドラフトモデルは完全に独立したものではなく、ターゲットモデルの入力埋め込みを共有し、最終層のアクティベーションを利用する。これにより、ターゲットモデルが保持する文脈情報を活用した精度の高い先読みが可能となる。Googleは、標準的な自己回帰生成と同等の品質を維持しつつ、推論の高速化を達成したとしている。利用にあたっては、Hugging Face Transformersなどで、軽量な4層のMTP drafterをassistant modelとして指定する実装方法が推奨されている。

Googleは本技術により、低遅延のチャット、音声アプリ、エージェントワークフロー、オンデバイスのモバイルアプリでの応答性向上が期待できるとしている。Gemma 4本体とdrafterを組み合わせることで、オンデバイス性能の向上や、PCおよびコンシューマーGPU上での26B MoEや31B Denseモデルの高速動作が可能になる。一方で高速化効果は実行環境に依存し、例えばGemma 4 26B A4B（MoEモデル）において、Apple Silicon上でバッチサイズ4〜8を用いた場合、最大約2.2倍の高速化が確認されている。モデル重みはApache 2.0ライセンスのもと、Hugging FaceやKaggleで公開されており、vLLM、SGLang、Ollama等のプラットフォームで利用可能である。