통합형 AI 모델, 멀티모달 이해의 한계에 직면하다
- •이미지 생성 능력이 30가지 하위 작업의 모델 이해도에 미치는 영향을 평가하는 UniG2U-Bench가 새롭게 도입됐다.
- •통합형 모델은 직접적인 시각적 이해 작업에서 특화된 시각-언어 모델보다 대체로 낮은 성능을 보였다.
- •반면 이미지 생성 능력은 중간 시각 상태 형성을 통해 공간 지능과 추론 능력을 강화하는 것으로 나타났다.
AI에게 이미지를 생성하도록 학습시키는 것이 시각적 이해 능력을 향상시키는지에 대해서는 오랜 시간 논의가 이어져 왔다. 최근 공개된 UniG2U-Bench 연구는 이러한 질문에 대해 복합적인 결과를 제시했다. 연구팀이 7개 범주에 걸쳐 30개 이상의 모델을 테스트한 결과, 보고 그리는 능력을 모두 갖춘 '통합 모델'은 대부분의 표준 작업에서 특정 분야에 특화된 모델들보다 오히려 성능이 뒤처지는 것으로 나타났다.
가장 놀라운 발견은 'Generate-then-Answer (GtA)' 방식에서 확인됐다. 이는 모델이 질문에 답하기 전 스스로 이미지를 생성해 '생각'을 돕게 하는 접근법인데, 실제로는 원본 이미지만을 보는 것보다 낮은 정확도를 기록하는 경우가 많았다. 모델 내부의 시각화 과정이 오히려 불필요한 노이즈를 만들어내며 정답을 찾는 데 필요한 세부 사항에 집중하는 것을 방해했기 때문이다.
다만 통합 시스템에 부정적인 면만 있는 것은 아니다. 벤치마크 결과에 따르면, 이러한 모델들은 공간 지능과 착시 현상 이해 측면에서 뚜렷한 강점을 보유하고 있었다. 특히 3D 공간 내 객체 관계 파악이나 복잡한 다단계 추론이 필요한 작업에서, 중간 시각 상태를 생성하는 능력은 AI의 사고를 돕는 강력한 가교 역할을 수행한다.
연구 결과는 우리가 아직 완벽한 범용 멀티모달 모델에 도달하지 못했음을 시사하며, 향후 더 다양한 데이터 학습이 필요함을 보여준다. 통합형 AI의 잠재력을 완전히 끌어내기 위해서는 창의적 생성과 분석적 지각 사이의 간극을 좁혀야 한다. 또한 정교한 귀납적 편향 설계를 통해 두 능력이 서로를 방해하지 않고 상호 보완할 수 있는 구조를 만드는 것이 향후 발전을 위한 핵심 과제다.