이 기사의 핵심 내용은?

연구진이 일체형 NEO-unify 아키텍처를 기반으로 한 네이티브 시각-언어 모델 SenseNova-U1 시리즈를 공개했다. 이번 시리즈는 8B 밀집형 모델과 30B 혼합 전문가(MoE) 모델 두 가지 버전으로 구성된다. SenseNova-U1은 이미지 합성, 에이전트 의사결정, 시각-언어-행동 추론 능력을 동시에 입증했다.

SenseNova-U1, 멀티모달 이해와 생성 통합

•연구진이 일체형 NEO-unify 아키텍처를 기반으로 한 네이티브 시각-언어 모델 SenseNova-U1 시리즈를 공개했다.
•이번 시리즈는 8B 밀집형 모델과 30B 혼합 전문가(MoE) 모델 두 가지 버전으로 구성된다.
•SenseNova-U1은 이미지 합성, 에이전트 의사결정, 시각-언어-행동 추론 능력을 동시에 입증했다.

연구진은 5월 12일 멀티모달 이해와 생성을 하나의 일체형 아키텍처로 통합한 네이티브 시각-언어 모델 시리즈인 SenseNova-U1을 발표했다. 기존 대규모 시각-언어 모델(VLM)들은 시각적 인식과 합성을 분리된 작업으로 다루며 파편화된 파이프라인과 불일치하는 표현 공간을 사용하는 구조적 한계가 있었다. 이를 해결하기 위해 개발진은 NEO-unify 프레임워크를 도입해 이해와 생성을 단일 지능 프로세스의 시너지 요소로 설계했다.

출시된 모델은 8B 파라미터 기반의 밀집형 구조인 SenseNova-U1-8B-MoT와 30B 혼합 전문가(MoE) 이해 베이스라인을 활용한 SenseNova-U1-A3B-MoT 두 가지다. 해당 모델들은 별도의 어댑터나 계단식 시스템 없이도 네이티브 멀티모달 추론을 수행하도록 제작됐다. 성능 측정 결과 텍스트 이해, 시각-언어 인식, 지식 추론, 에이전트 의사결정, 공간 지능 등 다양한 범주에서 최상급 이해 중심 VLM들과 대등한 성능을 보였다.

표준 벤치마크 외에도 지식 집약적 any-to-image(X2I) 작업, 텍스트가 포함된 인포그래픽 생성, 교차 시각-언어 콘텐츠 제작 등 복잡한 이미지 합성 능력을 갖췄다. 또한 시각-언어-행동(VLA) 및 세계 모델(WM) 환경에서도 효과적으로 작동한다. 연구진은 통합 멀티모달 패러다임 연구를 지원하기 위해 모델 설계, 데이터 전처리, 학습 전략에 관한 상세 문서를 공개했다.

연구진은 5월 12일 멀티모달 이해와 생성을 하나의 일체형 아키텍처로 통합한 네이티브 시각-언어 모델 시리즈인 SenseNova-U1을 발표했다. 기존 대규모 시각-언어 모델(VLM)들은 시각적 인식과 합성을 분리된 작업으로 다루며 파편화된 파이프라인과 불일치하는 표현 공간을 사용하는 구조적 한계가 있었다. 이를 해결하기 위해 개발진은 NEO-unify 프레임워크를 도입해 이해와 생성을 단일 지능 프로세스의 시너지 요소로 설계했다.

출시된 모델은 8B 파라미터 기반의 밀집형 구조인 SenseNova-U1-8B-MoT와 30B 혼합 전문가(MoE) 이해 베이스라인을 활용한 SenseNova-U1-A3B-MoT 두 가지다. 해당 모델들은 별도의 어댑터나 계단식 시스템 없이도 네이티브 멀티모달 추론을 수행하도록 제작됐다. 성능 측정 결과 텍스트 이해, 시각-언어 인식, 지식 추론, 에이전트 의사결정, 공간 지능 등 다양한 범주에서 최상급 이해 중심 VLM들과 대등한 성능을 보였다.

표준 벤치마크 외에도 지식 집약적 any-to-image(X2I) 작업, 텍스트가 포함된 인포그래픽 생성, 교차 시각-언어 콘텐츠 제작 등 복잡한 이미지 합성 능력을 갖췄다. 또한 시각-언어-행동(VLA) 및 세계 모델(WM) 환경에서도 효과적으로 작동한다. 연구진은 통합 멀티모달 패러다임 연구를 지원하기 위해 모델 설계, 데이터 전처리, 학습 전략에 관한 상세 문서를 공개했다.