베이비비전: AI의 취약한 시각 추론 능력을 폭로하다
- •새로운 벤치마크 '베이비비전' 결과, 현재 멀티모달 모델들이 3세 아동도 해결 가능한 기본적인 시각 과제 수행에 실패하는 것으로 나타났다.
- •구글의 제미나이 3 프로는 49.7점을 기록하며 6세 아동과 성인 평균인 94.1점에 크게 뒤처지는 성적을 보였다.
- •연구진은 인간과 AI 간의 시각적 추론 격차를 해소하기 위해 '베이비비전-젠'과 오픈소스 평가 툴킷을 함께 공개했다.
AI 연구소 UniPat-AI의 리앙 첸(Liang Chen) 연구원이 이끄는 연구팀은 최근 현재 멀티모달 거대언어모델(MLLM)의 근본적인 시각적 추론 한계를 명확히 드러내기 위해 설계된 새로운 벤치마크인 '베이비비전(BabyVision)'을 도입했다. 인간은 언어를 본격적으로 습득하기 이전인 영유아기부터 핵심적인 시각적 인지 능력을 발달시키지만, 현대의 AI 모델들은 방대한 텍스트 데이터를 통한 사전 지식에 과도하게 의존하여 실제로는 취약한 시각적 이해력을 교묘하게 은폐하고 있다는 것이 연구팀의 분석이다. 이 벤치마크는 언어적 지식의 도움 없이 오직 시각적 정보만으로 해결해야 하는 22개 하위 부문의 388개 항목으로 구성되어 모델의 순수한 시각 추론 능력을 정밀하게 측정한다.
연구 결과는 인간과 AI 사이의 압도적인 성능 격차를 고스란히 노출했다. 특히 구글의 제미나이 3 프로 프리뷰(Gemini 3 Pro-Preview)와 같은 현존 최고 수준의 모델조차 49.7점을 기록하며, 90점이 넘는 성인 평균은 물론 6세 아동의 수준에도 미치지 못하는 참담한 결과를 보였다. 실제로 MLLM들은 지식 집약적인 고난도 작업에서는 매우 뛰어난 역량을 발휘하지만, 사물의 배치나 기하학적 관계를 파악하는 지각적 원형 요소와 공간 논리 능력에서는 심각한 결함을 드러냈다. 이에 따라 현재의 멀티모달 AI가 진정한 의미의 시각적 직관을 갖추고 있는지에 대한 근본적인 의구심이 제기되고 있다.
한편 연구팀은 이러한 기술적 공백을 메우기 위해 시각적 퍼즐을 해결하는 새로운 생성적 접근 방식인 '베이비비전-젠(BabyVision-Gen)'을 제안하는 동시에, 누구나 이를 검증할 수 있도록 오픈소스 평가 툴킷을 함께 공개했다. 또한 이번 연구는 멀티모달 시스템이 인간 수준의 고차원적 지각 능력을 달성하기 위해서는 데이터 학습 방식에 있어 패러다임의 전환이 필수적임을 시사한다. 다만 단순한 모델 규모의 확장보다는 시각적 요소를 논리적으로 해석하는 능력을 배양하는 것이 우선되어야 한다. 또한 앞으로의 연구는 언어와 시각 정보의 단순한 결합을 넘어, 시각적 원시 데이터를 인간처럼 직관적으로 이해할 수 있는 구조적 혁신에 집중될 것으로 보인다.