NVIDIA, 에이전트 AI 가속화 위한 Nemotron 3 Nano Omni 공개
- •NVIDIA, 비전·오디오·언어를 아우르는 통합 멀티모달 모델 Nemotron 3 Nano Omni 출시
- •30B-A3B 모델 아키텍처를 통해 기존 오픈 모델 대비 9배 높은 처리량 달성
- •컴퓨터 제어 및 문서 분석 등 고속 에이전트 워크플로우에 최적화된 설계
오늘날 인공지능 분야는 단순한 챗봇을 넘어 사용자를 대신해 실제 작업을 수행하는 이른바 '에이전트' 시대로 전환되고 있다. 대학생들이 이 흐름을 관찰할 때 가장 큰 걸림돌은 시스템이 사고하는 데 걸리는 시간인 지연 시간, 즉 레이턴시다. 기존에는 시각, 청각, 텍스트 처리를 위해 각기 다른 모델을 연결해 사용했으나, 데이터가 서로 단절된 층을 거치며 이동함에 따라 전체적인 성능 저하가 빈번하게 발생했다.
NVIDIA가 새롭게 선보인 Nemotron 3 Nano Omni는 인지 기능을 단일 시스템으로 통합해 이러한 문제를 해결한다. 비전과 오디오 인코더를 30B-A3B 하이브리드 아키텍처에 직접 내장함으로써, 복잡한 입력 데이터를 거의 즉각적으로 처리할 수 있게 설계되었다. 사용자가 PDF 문서를 읽거나 도표를 해석하고, 전체 화면 녹화본을 분석할 때 모든 맥락을 하나의 흐름 속에서 유지해 기존 에이전트 시스템의 병목 현상을 획기적으로 줄였다.
이번 모델이 보여준 효율성 개선은 매우 고무적이다. 여러 번의 추론 과정을 거칠 필요가 없어진 덕분에 NVIDIA는 기존 오픈소스 멀티모달 모델 대비 최대 9배 높은 처리량을 구현했다고 밝혔다. 이는 에이전트가 GUI를 탐색하며 화면 변화를 실시간으로 추론해야 하는 컴퓨터 사용 환경에서 특히 강력한 성능을 발휘한다. 초기 도입 기업인 H Company 역시 기존에 감당하기 힘들었던 고해상도 화면 녹화 분석이 이제는 실용적인 수준이 되었다고 평가했다.
RAW 성능을 넘어 개발자 친화적인 환경을 제공한다는 점도 눈길을 끈다. NVIDIA는 이 모델의 가중치를 공개하여 시스템 작동 방식에 대한 투명성을 확보했다. 이는 데이터 개인정보 보호와 주권이 핵심인 규제 환경에서 모델을 배포해야 하는 기업 개발자들에게 매우 중요한 요소다.
Nemotron 3 Nano Omni는 대규모 시스템의 눈과 귀 역할을 수행하는 '서브 에이전트'로서의 가치를 지닌다. 고차원적인 계획 수립을 담당하는 Nemotron 3 Ultra와 같은 특화 모델과 협업하며, 확장 가능하고 반응성이 뛰어난 차세대 AI 워크플로우를 위한 모듈형 청사진을 제시하고 있다.