이 기사의 핵심 내용은?

구글 딥마인드가 확산 모델을 텍스트 생성에 응용해 기존 대비 최대 4배 속도를 높인 'DiffusionGemma'를 공개했다. DiffusionGemma는 26B 파라미터 MoE 모델로, 실제 추론 시 3.8B만 활성화되어 18GB VRAM 환경에서 로컬 구동이 가능하다. 텍스트 블록을 병렬로 생성하고 양방향으로 수정하는 새로운 방식을 채택해 코드 보완 및 인라인 편집 효율을 극대화했다.

Google, 확산 모델 적용해 텍스트 생성 4배 가속

•구글 딥마인드가 확산 모델을 텍스트 생성에 응용해 기존 대비 최대 4배 속도를 높인 'DiffusionGemma'를 공개했다.
•DiffusionGemma는 26B 파라미터 MoE 모델로, 실제 추론 시 3.8B만 활성화되어 18GB VRAM 환경에서 로컬 구동이 가능하다.
•텍스트 블록을 병렬로 생성하고 양방향으로 수정하는 새로운 방식을 채택해 코드 보완 및 인라인 편집 효율을 극대화했다.

•구글 딥마인드가 확산 모델을 텍스트 생성에 응용해 기존 대비 최대 4배 속도를 높인 'DiffusionGemma'를 공개했다.
•DiffusionGemma는 26B 파라미터 MoE 모델로, 실제 추론 시 3.8B만 활성화되어 18GB VRAM 환경에서 로컬 구동이 가능하다.
•텍스트 블록을 병렬로 생성하고 양방향으로 수정하는 새로운 방식을 채택해 코드 보완 및 인라인 편집 효율을 극대화했다.

구글 딥마인드(Google DeepMind)는 2026년 6월 10일, 텍스트 생성 속도를 획기적으로 개선한 실험적 오픈 모델 'DiffusionGemma'를 발표했다. 이미지 생성 분야의 핵심인 확산 모델 원리를 텍스트 생성에 접목해, 기존의 순차적 방식인 자기회귀형 모델 대비 최대 4배 빠른 생성 속도를 구현했다.

DiffusionGemma는 Gemma 4와 Gemini Diffusion 연구를 결합한 26B 규모의 MoE 모델로, Apache 2.0 라이선스로 배포된다. 기존 모델이 토큰을 하나씩 순차적으로 생성하는 것과 달리, 256토큰의 '캔버스(canvas)' 영역을 활용해 전체 텍스트 블록을 병렬로 생성하고 수정한다. 이를 통해 메모리 대역폭 한계를 극복하고 GPU 연산 자원을 효율적으로 활용한다.

성능 면에서 NVIDIA H100 환경에서는 초당 1000토큰 이상, NVIDIA GeForce RTX 5090 환경에서는 초당 700토큰 이상의 생성 속도를 보인다. 특히 생성 중인 블록 전체를 양방향으로 참조할 수 있어 문맥 정합성이 중요한 인라인 편집이나 코드 보완 작업에 최적화됐다. 총 파라미터는 25.2B이지만 실제 추론에는 3.8B만 사용하여 18GB VRAM 내에서 로컬 환경 구동이 가능하도록 설계됐다.

구글은 속도가 중요한 로컬 대화형 애플리케이션 및 특정 제약 조건이 있는 과제에 이 모델을 제안한다. 다만 실험적 모델인 만큼 고품질 결과물이 필요한 경우 표준 Gemma 4 사용을 권장한다. 현재 Hugging Face에서 모델을 이용할 수 있으며, vLLM이나 MLX 프레임워크를 통해 추론 및 파인튜닝이 가능하다.

구글 딥마인드(Google DeepMind)는 2026년 6월 10일, 텍스트 생성 속도를 획기적으로 개선한 실험적 오픈 모델 'DiffusionGemma'를 발표했다. 이미지 생성 분야의 핵심인 확산 모델 원리를 텍스트 생성에 접목해, 기존의 순차적 방식인 자기회귀형 모델 대비 최대 4배 빠른 생성 속도를 구현했다.

DiffusionGemma는 Gemma 4와 Gemini Diffusion 연구를 결합한 26B 규모의 MoE 모델로, Apache 2.0 라이선스로 배포된다. 기존 모델이 토큰을 하나씩 순차적으로 생성하는 것과 달리, 256토큰의 '캔버스(canvas)' 영역을 활용해 전체 텍스트 블록을 병렬로 생성하고 수정한다. 이를 통해 메모리 대역폭 한계를 극복하고 GPU 연산 자원을 효율적으로 활용한다.

성능 면에서 NVIDIA H100 환경에서는 초당 1000토큰 이상, NVIDIA GeForce RTX 5090 환경에서는 초당 700토큰 이상의 생성 속도를 보인다. 특히 생성 중인 블록 전체를 양방향으로 참조할 수 있어 문맥 정합성이 중요한 인라인 편집이나 코드 보완 작업에 최적화됐다. 총 파라미터는 25.2B이지만 실제 추론에는 3.8B만 사용하여 18GB VRAM 내에서 로컬 환경 구동이 가능하도록 설계됐다.

구글은 속도가 중요한 로컬 대화형 애플리케이션 및 특정 제약 조건이 있는 과제에 이 모델을 제안한다. 다만 실험적 모델인 만큼 고품질 결과물이 필요한 경우 표준 Gemma 4 사용을 권장한다. 현재 Hugging Face에서 모델을 이용할 수 있으며, vLLM이나 MLX 프레임워크를 통해 추론 및 파인튜닝이 가능하다.