이 기사의 핵심 내용은?

Google이 Gemma 4 모델의 추론 속도를 최대 3배 높이는 'Multi-Token Prediction' 기술을 공개했다. 경량 드래프트 모델이 토큰을 먼저 생성하면 타겟 모델이 이를 병렬 검증하는 추측형 디코딩 방식을 채택했다. 저지연 채팅 및 에이전트 서비스 활용을 위해 모델 가중치를 Hugging Face 등에 배포했다.

Google, Gemma 4 추론 가속화 기술 'MTP' 공개

Google은 2026년 5월 5일(현지시간), 오픈 모델 Gemma 4 제품군의 추론 성능을 개선하는 'Multi-Token Prediction(MTP) drafters'를 공개했다. 이 기술은 경량화된 드래프트 모델이 미래의 토큰을 미리 예측하고, 대규모 타겟 모델이 이를 병렬로 검증하는 방식을 취한다. Google은 기존의 출력 품질이나 추론 로직을 유지하면서도 추론 속도를 최대 3배까지 향상할 수 있다고 밝혔다.

MTP는 2026년 3월에 발표된 Gemma 4 제품군을 지원하며, 관련 기술은 4월 16일에 배포되었다. Gemma 4는 E2B, E4B, 31B, 26B A4B 등 4가지 크기로 구성된다. 기존의 LLM 추론 방식은 토큰을 하나 생성할 때마다 방대한 파라미터를 메모리에서 계산 유닛으로 전송해야 하므로 대역폭 병목 현상이 발생했다. MTP는 소위 'Speculative Decoding(추측형 디코딩)'이라 불리는 방식을 통해 드래프트 모델이 생성한 여러 토큰 후보를 타겟 모델이 한꺼번에 검증함으로써 처리 효율을 높인다.

이 과정에서 드래프트 모델은 타겟 모델과 입력 임베딩을 공유하고 최종 레이어의 활성화를 활용한다. 결과적으로 타겟 모델이 가진 문맥 정보를 그대로 사용하여 정밀한 예측이 가능하다. Google은 표준적인 자기회귀 방식과 동일한 품질을 유지하면서도 속도 개선을 달성했다고 강조했다. 사용자들은 Hugging Face Transformers 등을 통해 4층 구조의 MTP 드래프터를 어시스턴트 모델로 지정하여 구현할 수 있다.

이번 기술은 저지연 채팅, 음성 애플리케이션, 에이전트 워크플로우 및 온디바이스 환경에서 응답성을 크게 개선할 것으로 기대된다. 특히 PC나 컨슈머 GPU 환경에서도 26B MoE 또는 31B Dense 모델의 빠른 실행을 지원한다. 단, 가속 효과는 실행 환경에 따라 다르며, Apple Silicon 환경에서 Gemma 4 26B A4B 모델을 배치 사이즈 4~8로 구동할 경우 최대 약 2.2배의 성능 향상이 확인됐다. 모델 가중치는 Apache 2.0 라이선스로 Hugging Face와 Kaggle에 공개되었으며, vLLM, SGLang, Ollama 등 다양한 플랫폼에서 즉시 사용 가능하다.