이 기사의 핵심 내용은?

구글이 확산 기법을 활용해 텍스트 블록을 동시에 생성하는 실험적 오픈소스 모델인 DiffusionGemma를 공개했다. 26B 파라미터 규모인 이 모델은 NVIDIA H100에서 초당 1000개 이상의 토큰을 처리하며 기존 대비 4배 빠른 추론 속도를 달성했다. 속도가 중요한 로컬 작업에 최적화되었으며 양방향 어텐션과 반복적 개선 과정을 통해 상호작용형 생성 작업을 수행한다.

구글, 텍스트 생성 속도 높인 DiffusionGemma 공개

•구글이 확산 기법을 활용해 텍스트 블록을 동시에 생성하는 실험적 오픈소스 모델인 DiffusionGemma를 공개했다.
•26B 파라미터 규모인 이 모델은 NVIDIA H100에서 초당 1000개 이상의 토큰을 처리하며 기존 대비 4배 빠른 추론 속도를 달성했다.
•속도가 중요한 로컬 작업에 최적화되었으며 양방향 어텐션과 반복적 개선 과정을 통해 상호작용형 생성 작업을 수행한다.

•구글이 확산 기법을 활용해 텍스트 블록을 동시에 생성하는 실험적 오픈소스 모델인 DiffusionGemma를 공개했다.
•26B 파라미터 규모인 이 모델은 NVIDIA H100에서 초당 1000개 이상의 토큰을 처리하며 기존 대비 4배 빠른 추론 속도를 달성했다.
•속도가 중요한 로컬 작업에 최적화되었으며 양방향 어텐션과 반복적 개선 과정을 통해 상호작용형 생성 작업을 수행한다.

구글 연구원인 브렌던 오도노휴(Brendan O'Donoghue)와 세바스티안 플레너하게(Sebastian Flennerhag)는 2026년 6월 10일 고속 텍스트 생성을 위한 실험적 오픈소스 모델인 DiffusionGemma를 출시했다. 순차적으로 텍스트를 처리하는 일반적인 자기회귀 모델과 달리, 이 26B 규모의 Mixture of Experts(MoE) 모델은 확산 기반 접근 방식을 활용해 텍스트 블록을 동시에 생성한다. 해당 모델은 Apache 2.0 라이선스로 제공되며 MLX, vLLM, Hugging Face Transformers와 같은 프레임워크와 호환된다.

성능 테스트 결과, DiffusionGemma는 전용 하드웨어에서 최대 4배 빠른 텍스트 생성 속도를 기록했다. 단일 NVIDIA H100 환경에서는 초당 1000개 이상의 토큰을, NVIDIA GeForce RTX 5090에서는 초당 700개 이상의 토큰을 처리한다. 전체 파라미터는 26B이지만 추론 시 3.8B만 활성화되어 양자화 시 18GB의 VRAM에 탑재 가능하다. 또한 양방향 어텐션을 지원해 한 번의 연산으로 256개의 토큰을 생성할 수 있다.

이 아키텍처는 인라인 편집, 빠른 코드 반복, 수학적 그래프 생성과 같이 속도가 핵심인 워크플로우에 최적화되어 있다. 이 시스템은 이미지 확산과 유사한 반복적 개선 과정을 통해 무작위 플레이스홀더에서 시작하여 실시간으로 텍스트 블록을 다듬는다. 구글은 로컬 가속기 환경의 저중대역 배치 처리에는 뛰어나지만, 일반 Gemma 4 모델에 비해 출력 품질은 다소 낮아 최대 정밀도가 요구되는 프로덕션 환경에는 적합하지 않다고 설명했다.

구글 연구원인 브렌던 오도노휴(Brendan O'Donoghue)와 세바스티안 플레너하게(Sebastian Flennerhag)는 2026년 6월 10일 고속 텍스트 생성을 위한 실험적 오픈소스 모델인 DiffusionGemma를 출시했다. 순차적으로 텍스트를 처리하는 일반적인 자기회귀 모델과 달리, 이 26B 규모의 Mixture of Experts(MoE) 모델은 확산 기반 접근 방식을 활용해 텍스트 블록을 동시에 생성한다. 해당 모델은 Apache 2.0 라이선스로 제공되며 MLX, vLLM, Hugging Face Transformers와 같은 프레임워크와 호환된다.

성능 테스트 결과, DiffusionGemma는 전용 하드웨어에서 최대 4배 빠른 텍스트 생성 속도를 기록했다. 단일 NVIDIA H100 환경에서는 초당 1000개 이상의 토큰을, NVIDIA GeForce RTX 5090에서는 초당 700개 이상의 토큰을 처리한다. 전체 파라미터는 26B이지만 추론 시 3.8B만 활성화되어 양자화 시 18GB의 VRAM에 탑재 가능하다. 또한 양방향 어텐션을 지원해 한 번의 연산으로 256개의 토큰을 생성할 수 있다.

이 아키텍처는 인라인 편집, 빠른 코드 반복, 수학적 그래프 생성과 같이 속도가 핵심인 워크플로우에 최적화되어 있다. 이 시스템은 이미지 확산과 유사한 반복적 개선 과정을 통해 무작위 플레이스홀더에서 시작하여 실시간으로 텍스트 블록을 다듬는다. 구글은 로컬 가속기 환경의 저중대역 배치 처리에는 뛰어나지만, 일반 Gemma 4 모델에 비해 출력 품질은 다소 낮아 최대 정밀도가 요구되는 프로덕션 환경에는 적합하지 않다고 설명했다.