이 기사의 핵심 내용은?

구글이 Gemma 4 모델에 다중 토큰 예측(MTP) 기술을 도입하여 추론 지연 시간을 대폭 단축했다. MTP 드래프터는 결과물의 품질이나 논리적 일관성을 유지하면서도 텍스트 생성 속도를 최대 3배까지 향상시킨다. 새로운 오픈소스 아키텍처는 타겟 모델과 드래프터 간에 KV 캐시를 공유하여 효율성을 극대화한다.

구글, Gemma 4에 다중 토큰 예측 기술 도입

생성형 AI 분야에서 속도 경쟁은 곧 메모리 대역폭과의 싸움이다. 대규모 언어 모델을 사용할 때 시스템은 흔히 '메모리 병목' 현상을 겪게 되는데, 이는 실제 계산보다 메모리와 처리 장치 간의 데이터 이동에 더 많은 시간을 소비한다는 의미이다. 이로 인해 복잡한 모델은 로컬 기기나 사양이 제한된 하드웨어에서 느리게 작동하는 경우가 많다. 구글은 이러한 문제를 해결하기 위해 Gemma 4 모델군에 다중 토큰 예측(MTP) 기술을 도입했다.

이 업데이트의 핵심은 추론 가속 기법인 'Speculative Decoding'이다. 기존의 대규모 언어 모델은 한 번에 한 개의 토큰씩 텍스트를 생성하므로 구조적으로 속도가 느릴 수밖에 없다. 반면 Speculative Decoding은 성능이 뛰어난 대형 모델과 가벼운 보조 모델인 '드래프터'를 결합하는 방식이다. 메인 모델이 복잡한 계산을 수행하는 동안 드래프터가 다음 토큰들을 미리 예측하면, 메인 모델은 이를 단일 작업으로 효율적으로 검증한다.

실제로 구글은 이 방식을 통해 Gemma 4의 생성 속도가 최대 3배 빨라졌으며, 결과물의 품질과 추론 능력은 그대로 유지된다고 밝혔다. 특히 드래프터와 메인 모델이 'KV 캐시'를 공유하도록 설계하여, 이미 처리한 문맥을 중복 계산할 필요가 없도록 최적화했다. 이러한 효율성 확보는 실시간 음성 인터페이스, 고속 코딩 보조 도구, 복잡한 사고를 수행하는 자율 에이전트 개발자들에게 매우 중요하다.

이번 성과는 단순한 수치 개선을 넘어선다. 구글은 이러한 MTP 드래프터 기술을 아파치 2.0 라이선스로 오픈소스화하여 누구나 효율적인 AI 인프라를 구축할 수 있도록 했다. 이제 개발자들은 강력한 성능을 유지하면서도 개인용 워크스테이션이나 일반적인 소비자용 GPU 환경에서 고성능 모델을 구동할 수 있다. 이는 단순히 모델의 크기를 키우는 것을 넘어, 기존의 지능을 실생활의 제한된 환경에서도 효과적으로 활용하는 방향으로 업계 흐름이 전환되고 있음을 보여준다.