텐센트의 Penguin-VL, 비전-언어 모델의 효율성 재정의
- •텐센트의 Penguin-VL은 모바일 기기에서의 효율성을 극대화하기 위해 텍스트 전용 모델을 비전 인코더로 활용한다.
- •새로운 아키텍처는 세밀한 시각적·시간적 정보를 보존함으로써 기존의 대조 학습 기반 사전 학습 방식보다 뛰어난 성능을 발휘한다.
- •2B 및 8B 매개변수의 소형 모델임에도 불구하고 수학적 추론과 문서 이해 작업에서 대형 모델들과 대등한 성능을 기록했다.
기존의 비전-언어 모델(VLM)은 주로 대조 학습을 통해 훈련된 거대 비전 인코더에 의존해 왔다. 대조 학습은 AI가 서로 다른 범주를 구별하는 데 효과적이지만, 복잡한 추론에 필수적인 미세한 세부 정보를 놓치는 경우가 많다는 단점이 있다. 이에 텐센트 연구진은 Penguin-VL을 통해 이러한 관행에 도전했다. 연구진은 표준 인코더를 사용하는 대신 텍스트 전용 대규모 언어 모델을 시스템의 '눈'으로 재활용하는 독특한 방식을 택했다. 이러한 전략적 전환 덕분에 모델은 기존 방식에서 노이즈로 간주되어 버려지던 고정밀 시각 정보를 효과적으로 포착할 수 있게 되었다.
이러한 성과는 특히 연산 능력이 제한적인 에지 컴퓨팅 분야에서 큰 주목을 받고 있다. Penguin-VL은 단순히 모델의 규모를 키우는 대신 시각적 표현력을 정교화하는 데 집중했으며, 그 결과 2B 또는 8B 정도의 적은 매개변수만으로도 수학적 추론 및 문서 이해 분야에서 탁월한 성능을 입증했다. 이와 같은 접근법을 활용하면 스마트폰이나 로봇에서도 거대 서버 팜의 막대한 전력 소모 없이 정교한 멀티모달 작업을 충분히 수행할 수 있다.
무엇보다 Penguin-VL이 돋보이는 이유는 객체의 위치와 시간에 따른 움직임 등 공간적·시간적 단서를 유지하는 능력에 있다. 실제로 비디오 벤치마크 테스트에서 여러 선도적 모델들을 앞지르며, 텍스트 기반 초기화 방식이 오히려 AI의 시야를 더 선명하게 만들 수 있음을 증명했다. 해당 연구는 데이터 효율적인 AI로의 중대한 전환점을 시사하며, 차세대 스마트 비서가 이전의 예상보다 훨씬 작으면서도 강력해질 수 있다는 가능성을 보여주었다.