OpenMOSS, 320억 매개변수 비디오-오디오 통합 모델 MOVA 공개
- •OpenMOSS가 영상과 음성을 정교하게 동기화하여 생성하는 320억 매개변수 규모의 오픈 소스 모델 MOVA를 출시했다.
- •MOVA는 혼합 전문가 모델(MoE) 구조를 채택해, 추론 시 180억 개의 매개변수만 활성화함으로써 효율적인 성능을 구현한다.
- •이미지를 영상과 음성으로 변환하는 기능을 지원하며, 사실적인 립싱크와 효과음, 장면에 어울리는 배경음악을 동시에 생성한다.
고품질 비디오 생성은 그 자체로도 까다로운 작업이지만, 실제와 같은 오디오를 시각적 요소에 맞춰 동기화하는 것은 훨씬 더 어려운 과제다. 기존 AI 시스템은 비디오를 먼저 만들고 나중에 소리를 입히는 단계별 파이프라인 방식에 주로 의존해 왔으나, 이는 소리와 화면의 타이밍이 어긋나거나 오류가 누적되는 문제를 야기했다. 이에 OpenMOSS 팀은 영상과 음성이라는 두 가지 모달리티를 동시에 생성하도록 설계된 320억 매개변수 규모의 대형 모델 MOVA를 선보이며 이 문제를 해결했다. 이러한 통합 모델링 덕분에 파도가 부서지는 소리나 화자의 입술 움직임이 시각적 프레임과 높은 정밀도로 일치하게 된다.
이 모델은 특히 혼합 전문가 모델(MoE) 아키텍처를 활용해 효율성을 극대화했다. 이는 특정 작업에 가장 적합한 '전문가' 서브 모델들만 호출하여 작동하는 구조로 이해할 수 있다. 전체 매개변수는 320억 개에 달하지만, AI가 실제 결과물을 생성하는 추론 단계에서는 180억 개만 활성화함으로써 출력 품질을 유지하면서도 필요한 연산량을 대폭 줄였다. 결과적으로 MOVA는 단 한 장의 이미지와 텍스트 프롬프트만으로도 영화 같은 완성도의 시청각 경험을 빠르게 만들어낼 수 있다.
무엇보다 OpenMOSS 연구진은 MOVA를 오픈 소스로 공개하여 폐쇄적인 기존 시스템에 대한 투명한 대안을 제시하고자 한다. 이번 배포에는 모델 가중치와 함께 저차원 적응(LoRA) 미세 조정을 지원하는 코드베이스가 포함되어, 창작자들이 최소한의 데이터만으로도 AI를 특정 스타일이나 음성에 맞춰 손쉽게 최적화할 수 있도록 돕는다. 사실적인 립싱크 음성부터 환경을 고려한 정교한 효과음까지, MOVA는 차세대 디지털 스토리텔러와 AI 연구자 모두에게 강력하고 접근성 높은 도구가 될 것으로 기대된다.