この記事の要点は？

Googleは拡散技術を用いてテキストブロックを同時生成する、実験的なオープンソースモデル「DiffusionGemma」を公開した。 26Bパラメータの同モデルは、NVIDIA H100 GPU上で毎秒1000トークン超の生成を実現し、従来比で4倍の推論速度を達成する。速度が重要なローカル環境向けに設計され、双方向アテンションと反復的な洗練プロセスを用いて対話的な生成タスクを最適化する。

Google、高速テキスト生成モデル「DiffusionGemma」を公開

•Googleは拡散技術を用いてテキストブロックを同時生成する、実験的なオープンソースモデル「DiffusionGemma」を公開した。
•26Bパラメータの同モデルは、NVIDIA H100 GPU上で毎秒1000トークン超の生成を実現し、従来比で4倍の推論速度を達成する。
•速度が重要なローカル環境向けに設計され、双方向アテンションと反復的な洗練プロセスを用いて対話的な生成タスクを最適化する。

•Googleは拡散技術を用いてテキストブロックを同時生成する、実験的なオープンソースモデル「DiffusionGemma」を公開した。
•26Bパラメータの同モデルは、NVIDIA H100 GPU上で毎秒1000トークン超の生成を実現し、従来比で4倍の推論速度を達成する。
•速度が重要なローカル環境向けに設計され、双方向アテンションと反復的な洗練プロセスを用いて対話的な生成タスクを最適化する。

Googleの研究者であるブレンダン・オドノヒュー(Brendan O'Donoghue)とセバスチャン・フレナーハグ(Sebastian Flennerhag)は、2026年6月10日に高速テキスト生成用の実験的オープンソースモデル「DiffusionGemma」を発表した。従来の逐次的にテキストを処理する自己回帰モデルとは異なり、この26BのMixture of Expertsモデルは拡散ベースのアプローチを採用し、テキストブロックを同時に生成する。本モデルはApache 2.0ライセンスの下で提供され、MLX、vLLM、Hugging Face Transformersといったフレームワークと互換性がある。

性能ベンチマークによれば、DiffusionGemmaは専用ハードウェア上で最大4倍の高速化を実現する。単一のNVIDIA H100では毎秒1000トークン以上、NVIDIA GeForce RTX 5090でも毎秒700トークン以上の速度に到達する。モデル全体のパラメータ数は26Bだが、推論時にアクティブ化されるのは3.8Bのみであり、量子化によって18GBのVRAMに収まる。また、双方向アテンションをサポートしており、1回のフォワードパスで256トークンを生成可能だ。

このアーキテクチャは、インライン編集や迅速なコード反復、数学的グラフ生成など、速度が求められるワークフローに最適化されている。画像拡散と同様の反復的洗練プロセスを採用しており、ランダムなプレースホルダーから始めてリアルタイムでテキストブロックを磨き上げる。ローカルアクセラレータ上での小〜中規模のバッチ処理には優れるが、標準のGemma 4モデルと比較すると出力品質は劣るため、最高精度の出力が求められる本番環境での使用は想定されていない。

Googleの研究者であるブレンダン・オドノヒュー(Brendan O'Donoghue)とセバスチャン・フレナーハグ(Sebastian Flennerhag)は、2026年6月10日に高速テキスト生成用の実験的オープンソースモデル「DiffusionGemma」を発表した。従来の逐次的にテキストを処理する自己回帰モデルとは異なり、この26BのMixture of Expertsモデルは拡散ベースのアプローチを採用し、テキストブロックを同時に生成する。本モデルはApache 2.0ライセンスの下で提供され、MLX、vLLM、Hugging Face Transformersといったフレームワークと互換性がある。

性能ベンチマークによれば、DiffusionGemmaは専用ハードウェア上で最大4倍の高速化を実現する。単一のNVIDIA H100では毎秒1000トークン以上、NVIDIA GeForce RTX 5090でも毎秒700トークン以上の速度に到達する。モデル全体のパラメータ数は26Bだが、推論時にアクティブ化されるのは3.8Bのみであり、量子化によって18GBのVRAMに収まる。また、双方向アテンションをサポートしており、1回のフォワードパスで256トークンを生成可能だ。

このアーキテクチャは、インライン編集や迅速なコード反復、数学的グラフ生成など、速度が求められるワークフローに最適化されている。画像拡散と同様の反復的洗練プロセスを採用しており、ランダムなプレースホルダーから始めてリアルタイムでテキストブロックを磨き上げる。ローカルアクセラレータ上での小〜中規模のバッチ処理には優れるが、標準のGemma 4モデルと比較すると出力品質は劣るため、最高精度の出力が求められる本番環境での使用は想定されていない。