SenseNova-U1, 멀티모달 이해와 생성 통합
HuggingFace
2026년 5월 14일 (목)
- •연구진이 일체형 NEO-unify 아키텍처를 기반으로 한 네이티브 시각-언어 모델 SenseNova-U1 시리즈를 공개했다.
- •이번 시리즈는 8B 밀집형 모델과 30B 혼합 전문가(MoE) 모델 두 가지 버전으로 구성된다.
- •SenseNova-U1은 이미지 합성, 에이전트 의사결정, 시각-언어-행동 추론 능력을 동시에 입증했다.
연구진은 5월 12일 멀티모달 이해와 생성을 하나의 일체형 아키텍처로 통합한 네이티브 시각-언어 모델 시리즈인 SenseNova-U1을 발표했다. 기존 대규모 시각-언어 모델(VLM)들은 시각적 인식과 합성을 분리된 작업으로 다루며 파편화된 파이프라인과 불일치하는 표현 공간을 사용하는 구조적 한계가 있었다. 이를 해결하기 위해 개발진은 NEO-unify 프레임워크를 도입해 이해와 생성을 단일 지능 프로세스의 시너지 요소로 설계했다.
출시된 모델은 8B 파라미터 기반의 밀집형 구조인 SenseNova-U1-8B-MoT와 30B 혼합 전문가(MoE) 이해 베이스라인을 활용한 SenseNova-U1-A3B-MoT 두 가지다. 해당 모델들은 별도의 어댑터나 계단식 시스템 없이도 네이티브 멀티모달 추론을 수행하도록 제작됐다. 성능 측정 결과 텍스트 이해, 시각-언어 인식, 지식 추론, 에이전트 의사결정, 공간 지능 등 다양한 범주에서 최상급 이해 중심 VLM들과 대등한 성능을 보였다.
표준 벤치마크 외에도 지식 집약적 any-to-image(X2I) 작업, 텍스트가 포함된 인포그래픽 생성, 교차 시각-언어 콘텐츠 제작 등 복잡한 이미지 합성 능력을 갖췄다. 또한 시각-언어-행동(VLA) 및 세계 모델(WM) 환경에서도 효과적으로 작동한다. 연구진은 통합 멀티모달 패러다임 연구를 지원하기 위해 모델 설계, 데이터 전처리, 학습 전략에 관한 상세 문서를 공개했다.