NVIDIA、DiffusionGemmaのローカル実行を高速化
- •Google DeepMindは、高速テキスト生成が可能な並列処理オープンモデル「DiffusionGemma」を公開した。
- •NVIDIAは同モデルを最適化し、標準的な自己回帰LLMと比較して4倍の高速化を実現した。
- •DiffusionGemmaはNVIDIAハードウェア上でローカル動作し、DGX Stationでは最大毎秒2,000トークンを記録する。
Google DeepMindは、2026年6月10日、高速なテキスト生成を目的とした実験的オープンモデル「DiffusionGemma」を公開した。NVIDIAはGeForce RTX GPU、NVIDIA RTX PROプラットフォーム、DGX Sparkシステムを含む自社ハードウェアエコシステム向けに最適化を行い、従来の自己回帰モデル比で最大4倍の性能を達成した。一度に1単語を生成する一般的なLLMとは異なり、DiffusionGemmaは並列アプローチを採用してステップごとに最大256トークンのノイズ除去を行い、対話やエージェントループなどのシングルユーザー作業における遅延を大幅に削減する。
Gemma 4アーキテクチャをベースとする同モデルは、260億パラメータのMoE(Mixture-of-Experts)を採用しており、ステップごとに38億パラメータをアクティブ化する。拡散ヘッドとGemma 4フレームワークを組み合わせることで、逐次処理ではなくテキストブロックの並列処理を実現した。メモリ制約型から計算制約型への移行により、NVIDIA Tensor Coreによる効率的な数学演算が可能となる。本モデルはApache 2.0ライセンスで提供され、Hugging Face Transformers、vLLM、Unslothなどのフレームワークと即座に統合できる。
NVIDIAハードウェア上でのベンチマークでは、H100 GPU単体で毎秒1,000トークン、NVIDIA DGX Sparkで毎秒150トークン、NVIDIA DGX Stationでは最大毎秒2,000トークンを記録した。128GBのユニファイドメモリを備えたGB10 Grace Blackwell Superchip搭載のデスクサイド型スパコン「NVIDIA DGX Spark」は、プロトタイプ作成やファインチューニングのローカル環境を提供する。開発者はNVIDIA NeMoフレームワークによるドメイン特化型適応や、build.nvidia.comで提供されるAPIを通じた無料テストが可能だ。