구글, 시각 인지 기능 갖춘 오픈 모델 Gemma 4 공개
- •구글 딥마인드가 Apache 2.0 라이선스 하에 시각 인지 능력을 갖춘 오픈 모델 제품군인 Gemma 4를 출시했다.
- •온디바이스 성능과 효율성을 높이기 위해 Per-Layer Embeddings를 도입한 새로운 'Effective' 파라미터 아키텍처를 선보였다.
- •파라미터당 높은 지능을 바탕으로 복잡한 추론 작업과 SVG 코드 생성 분야에서 탁월한 성능을 입증했다.
구글 딥마인드가 오픈 가중치 모델의 효율성을 비약적으로 향상시킨 시각 인지 모델군 Gemma 4를 전격 공개했다. 파라미터당 지능 극대화에 초점을 맞춘 Gemma 4 제품군은 20억 개에서 310억 개 사이의 파라미터를 가진 4종의 모델로 구성되었으며, 모두 개발자 친화적인 Apache 2.0 라이선스로 배포된다. 이는 클라우드 기반 시스템의 고질적인 문제인 지연 시간이나 개인정보 보호 우려 없이 소비자용 하드웨어에서 로컬로 강력한 인공지능을 구동하려는 시장의 수요를 충족시키기 위한 조치다.
기술적 혁신의 핵심은 E2B 및 E4B 변체에 적용된 'Effective' 파라미터 크기 조정 방식에 있다. 해당 아키텍처는 Per-Layer Embeddings 기술을 핵심으로 활용한다. 단순히 층을 쌓아 모델 규모를 키우는 기존 방식과 달리, 각 디코더 층에 개별 임베딩 테이블을 할당해 토큰 조회 속도를 획기적으로 높였다. 이러한 설계를 바탕으로 모델은 복잡한 추론을 수행하면서도 모바일 기기나 노트북에서 원활하게 작동할 수 있을 만큼 가벼운 메모리 점유율을 유지한다.
단순 텍스트 처리를 넘어 Gemma 4는 멀티모달 작업에서도 독보적인 숙련도를 보여준다. 특히 시각적 프롬프트를 분석하여 추론하고, 이를 확장 가능한 벡터 그래픽(SVG)과 같은 실제 작동하는 코드로 변환하는 능력이 매우 뛰어나다. 비록 로컬 실행 환경에서의 커뮤니티 테스트 중 가장 큰 31B 모델에서 일부 초기 기술적 결함이 발견되기도 했으나, 전체적인 벤치마크 성능은 대규모 인프라 없이도 소형 모델이 창의적이고 논리적인 영역에서 도달할 수 있는 새로운 이정표를 세웠다.