멀티모달 처리를 지원하는 5종의 오픈소스 옴니 AI 모델 공개
- •5종의 오픈소스 옴니 AI 모델이 텍스트, 이미지, 오디오, 비디오의 통합 처리를 지원한다.
- •NVIDIA Nemotron 3 Nano Omni 30B A3B와 Qwen3-Omni 30B A3B가 고용량 멀티모달 작업을 주도한다.
- •MiniCPM-o 4.5와 DeepSeek Janus-Pro 7B가 특화된 스트리밍 및 이미지 생성 기능을 구현한다.
오픈소스 옴니 AI 모델이 개별 아키텍처에서 벗어나 텍스트, 이미지, 오디오, 비디오를 단일 프레임워크 내에서 처리하는 방식으로 진화했다. 이러한 시스템은 현재 실시간 멀티모달 상호작용과 문서 추론을 포함한 다양한 워크플로우를 지원한다.
NVIDIA Nemotron 3 Nano Omni 30B A3B Reasoning 모델은 Mamba2-Transformer 하이브리드 Mixture-of-Experts 아키텍처를 기반으로 30B 파라미터를 제공한다. 토큰당 3B 활성 파라미터와 256K 토큰의 컨텍스트 윈도우를 갖춰 기업용 비디오, 음성 및 문서 분석에 최적화됐다. 한편, 구글의 Gemma 4 12B IT는 자체 호스팅 애플리케이션을 위한 12B 멀티모달 모델로, 인코더가 없는 구조를 통해 원시 이미지 패치와 오디오 파형을 언어 모델의 임베딩 공간으로 직접 투영하며 256K 토큰의 컨텍스트 윈도우를 지원한다.
Qwen3-Omni 30B A3B Instruct는 실시간 음성 및 비디오 대화를 위한 Thinker-Talker 디자인을 통해 네이티브 다국어 능력을 제공한다. 해당 모델은 119개의 텍스트 언어와 19개의 음성 입력 언어, 10개의 음성 출력 언어를 지원한다. DeepSeek Janus-Pro 7B는 시각적 이해와 생성을 모두 강화했으며, SigLIP-L 비전 인코더와 자귀회귀(Autoregressive) 작업을 위한 전용 이미지 토크나이저를 활용한다.
9B 파라미터 모델인 MiniCPM-o 4.5는 SigLIP2, Whisper-medium, CosyVoice2를 결합하여 전이중(Full-duplex) 멀티모달 라이브 스트리밍을 지원한다. 이를 통해 vLLM 및 SGLang과 같은 추론 프레임워크와 호환되는 상태에서 연속적인 비디오 및 오디오 처리가 가능하다. 이러한 발전은 이전 세대 시스템 대비 낮은 지연 시간으로 보고, 듣고, 추론할 수 있는 통합형 모델로의 전환을 의미한다.