この記事の要点は？

Google DeepMind、拡散モデルを応用しテキスト生成を最大4倍高速化する「DiffusionGemma」を公開 26BのMoEモデルで、推論時の有効パラメータは3.8B。18GB VRAM環境でのローカル動作が可能文章ブロックを並列生成・双方向修正する新方式で、コード補完やインライン編集の効率を向上

Google、拡散モデル応用でテキスト生成を4倍高速化

•Google DeepMind、拡散モデルを応用しテキスト生成を最大4倍高速化する「DiffusionGemma」を公開
•26BのMoEモデルで、推論時の有効パラメータは3.8B。18GB VRAM環境でのローカル動作が可能
•文章ブロックを並列生成・双方向修正する新方式で、コード補完やインライン編集の効率を向上

Google DeepMindは2026年6月10日、テキスト生成を高速化する実験的オープンモデル「DiffusionGemma」を公開した。画像生成の分野で利用されてきた拡散モデルの原理をテキスト生成に応用したもので、GPU上で従来の自己回帰型モデルと比較して最大4倍の高速化を実現する。

DiffusionGemmaは、Gemma 4モデルとGemini Diffusionの研究成果を基盤として開発された26BのMoEモデルであり、Apache 2.0ライセンスで提供される。最大の特徴は、1トークンずつ順番に生成する従来の自己回帰型とは異なり、256トークンの「canvas」領域を使用してテキストブロック全体を並列に生成・修正する点にある。この方式により、メモリ帯域のボトルネックを解消し、GPUの演算能力を最大限に活用可能となった。

処理能力については、NVIDIA H100環境で毎秒1000トークン超、NVIDIA GeForce RTX 5090環境で毎秒700トークン超の生成速度を記録する。また、生成中のブロック全体を双方向に参照できるため、文章全体の整合性を保ちながらのインライン編集やコード補完に適している。総パラメータ数は25.2Bだが、推論時に有効化されるパラメータは3.8Bに抑えられており、18GBのVRAM内に収まる設計からローカル環境での動作が想定されている。

Googleは本モデルを、速度が重視されるローカル対話型アプリや特定の制約条件が求められるタスク向けと位置付けている。ただし、あくまで実験的モデルであるため、最高品質を求める用途には標準のGemma 4を推奨している。現在、モデルはHugging Faceで公開されており、vLLMやMLXなどのフレームワークを通じて推論やファインチューニングが可能である。

Google DeepMindは2026年6月10日、テキスト生成を高速化する実験的オープンモデル「DiffusionGemma」を公開した。画像生成の分野で利用されてきた拡散モデルの原理をテキスト生成に応用したもので、GPU上で従来の自己回帰型モデルと比較して最大4倍の高速化を実現する。

DiffusionGemmaは、Gemma 4モデルとGemini Diffusionの研究成果を基盤として開発された26BのMoEモデルであり、Apache 2.0ライセンスで提供される。最大の特徴は、1トークンずつ順番に生成する従来の自己回帰型とは異なり、256トークンの「canvas」領域を使用してテキストブロック全体を並列に生成・修正する点にある。この方式により、メモリ帯域のボトルネックを解消し、GPUの演算能力を最大限に活用可能となった。

処理能力については、NVIDIA H100環境で毎秒1000トークン超、NVIDIA GeForce RTX 5090環境で毎秒700トークン超の生成速度を記録する。また、生成中のブロック全体を双方向に参照できるため、文章全体の整合性を保ちながらのインライン編集やコード補完に適している。総パラメータ数は25.2Bだが、推論時に有効化されるパラメータは3.8Bに抑えられており、18GBのVRAM内に収まる設計からローカル環境での動作が想定されている。

Googleは本モデルを、速度が重視されるローカル対話型アプリや特定の制約条件が求められるタスク向けと位置付けている。ただし、あくまで実験的モデルであるため、最高品質を求める用途には標準のGemma 4を推奨している。現在、モデルはHugging Faceで公開されており、vLLMやMLXなどのフレームワークを通じて推論やファインチューニングが可能である。