구글, 인코더 없는 Gemma 4 12B 멀티모달 모델 공개
- •구글이 노트북 환경에서 구동 가능한 중형 멀티모달 모델 Gemma 4 12B를 출시했다.
- •오디오와 시각 정보를 언어 모델 본체에서 직접 처리하는 인코더 없는 아키텍처를 적용했다.
- •16GB VRAM에서 작동하며, 26B Mixture of Experts 모델에 근접한 성능을 구현했다.
구글 딥마인드(Google DeepMind)는 2026년 6월 3일 개인용 노트북에서 로컬로 구동하도록 설계된 중형 멀티모달 모델인 Gemma 4 12B를 공개했다. 이 모델은 16GB VRAM 또는 통합 메모리를 갖춘 하드웨어에 최적화되었으며, 경량형인 E4B 버전과 대규모 26B Mixture of Experts 모델 사이의 간극을 메우는 역할을 한다. 또한 기본적으로 오디오 입력을 지원하며 에이전트 기반 워크플로우를 처리할 수 있고, 전반적인 성능은 기존 26B 모델 수준에 근접한다.
이번 모델의 핵심은 인코더 없는 아키텍처이다. 기존 멀티모달 시스템이 이미지와 오디오 데이터를 처리하기 위해 별도의 인코더를 사용하던 것과 달리, Gemma 4 12B는 이러한 입력을 언어 모델 백본 내에서 직접 통합한다. 시각 처리를 위해 단일 행렬 곱셈과 정규화 과정을 거치는 경량 임베딩 모듈을 활용한다. 오디오 처리의 경우, 원시 오디오 신호를 텍스트 토큰과 동일한 차원 공간으로 투영함으로써 별도의 오디오 인코더 없이도 처리가 가능하다.
Gemma 4 12B에는 추론 대기 시간을 최소화하기 위해 Multi-Token Prediction 기술이 포함되었다. 모델은 Apache 2.0 라이선스로 배포되어 Hugging Face와 Kaggle에서 가중치를 내려받을 수 있다. 개발자는 Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM 등의 도구를 사용하여 통합이 가능하다. 구글은 에이전트 애플리케이션 개발을 돕는 스킬 저장소를 선보였으며, 프로덕션급 배포는 구글 클라우드의 Gemini Enterprise Agent Platform, Cloud Run, GKE를 통해 지원된다. 이번 출시는 Gemma 시리즈가 총 1억 5천만 다운로드를 돌파한 시점에 이루어졌다.