메이투안, 네이티브 멀티모달 모델 'LongCat-Next' 공개
- •메이투안이 순수 이산 자기회귀 구조를 활용한 네이티브 멀티모달 모델 'LongCat-Next'를 발표했다.
- •DiNA 프레임워크를 통해 텍스트, 시각 정보, 오디오를 하나의 공유된 이산 토큰 공간으로 통합했다.
- •LongCat-Next는 시각적 이해와 이미지 생성 작업 사이의 성능 격차를 혁신적으로 해소했다.
메이투안의 LongCat 팀 연구원들이 기존 AI 시스템의 데이터 처리 방식을 혁신하는 파운데이션 모델, LongCat-Next를 공개했다. 전통적인 모델들은 텍스트 중심적인 구조를 지녀 이미지나 오디오를 보조적인 부속물로 취급하는 경향이 있었다. 하지만 LongCat-Next는 DiNA(Discrete Native Autoregressive) 프레임워크를 도입해 이러한 패러다임을 전환했다. 이 방식은 단어, 픽셀, 음파 등 모든 양식의 데이터를 단일한 공유 수학적 공간 내에서 이산 토큰으로 처리한다. 그 결과, 모든 입력을 동일한 논리로 처리하는 진정한 의미의 '네이티브' 멀티모달리티를 구현했다.
이러한 기술적 도약은 dNaViT(Discrete Native Any-resolution Visual Transformer)라는 새로운 구성 요소 덕분에 가능해졌다. 이 기술은 이미지 해상도와 관계없이 시각적 신호를 계층적 토큰으로 분해하여, 시각적 이해와 이미지 생성 사이의 간극을 효과적으로 메워준다. 특히 두 가지 작업을 동시에 수행할 때 성능이 저하되던 기존 모델들과 달리, LongCat-Next는 다양한 벤치마크에서 고른 고성능을 유지한다. 이는 인간의 뇌가 여러 감각을 통합하는 것처럼, 세상을 보다 총체적으로 인지하는 인공지능으로 나아가는 중요한 단계라고 할 수 있다.
또한 메이투안은 AI 생태계 발전을 위해 해당 모델과 전용 토크나이저를 오픈소스로 공개했다. 이에 따라 개발자와 연구자들은 복잡한 임시방편적 설계 없이도 진정으로 통합된 아키텍처를 탐구할 수 있게 되었다. 멀티모달 시스템의 구조적 복잡성을 단순화한 LongCat-Next는 단일한 프레임워크 내에서 듣고 말하며 시각화까지 가능한 더욱 효율적이고 유능한 AI 에이전트의 등장을 예고한다.