Meta AI, 통합 멀티모달 모델의 확장 법칙 공개
- •텍스트의 차순위 토큰 예측과 이미지의 디퓨전 기법을 결합한 트랜스퓨전(Transfusion) 프레임워크 도입
- •이미지 이해와 생성 모두에 최적화된 시각적 표현 방식으로 표현 오토인코더(Representation Autoencoder) 선정
- •방대한 시각 데이터와 고성능 언어 처리를 효율적으로 조율하는 혼합 전문가 모델 (MoE) 구조 채택
Meta AI 연구진은 언어 중심의 기존 기반 모델을 넘어, 본질적인 멀티모달 사전 학습의 지평을 넓히는 연구 결과를 공개했다. 텍스트 생성을 위한 차순위 토큰 예측과 시각 데이터 처리를 위한 디퓨전 프로세스를 결합한 트랜스퓨전(Transfusion) 프레임워크를 활용해, 텍스트와 이미지, 비디오가 혼합된 데이터를 밑바닥부터 학습시킨 것이 특징이다. 이러한 접근 방식은 기존 언어 모델의 편향 없이 멀티모달 학습 고유의 역학을 독립적으로 규명해냈다는 점에서 의미가 크다.
특히 연구진은 시각 정보를 이해하고 생성하는 두 가지 과업에서 모두 탁월한 성능을 보이는 최적의 표현 방식으로 표현 오토인코더 (Representation Autoencoder)를 지목했다. 무엇보다 이번 연구에서 주목할 만한 점은 '세계 모델링(world modeling)' 역량의 발현이다. 별도의 특화 학습 없이 일반적인 멀티모달 학습만으로도 물리적 상호작용과 공간적 일관성을 이해하기 시작한 것이다. 이는 통합적 접근이 물리 세계를 직관적으로 이해하는 AI를 개발하는 데 핵심적인 열쇠임을 보여준다.
마지막으로 모달리티 간의 '확장 비대칭성' 문제에 대한 해결책도 제시되었다. 분석 결과, 시각 데이터는 언어에 비해 유의미한 성능 향상을 이끌어내는 데 훨씬 더 많은 양의 데이터가 필요함이 드러났다. 이를 효율적으로 관리하기 위해 연구진은 혼합 전문가 모델 (MoE) 구조를 채택했다. 그 결과, 높은 언어 처리 능력을 유지하면서도 시각적 이해에 필수적인 방대한 데이터를 효과적으로 처리하는 데 성공했다.