UniVidX: 멀티모달 비디오 생성을 위한 통합 프레임워크
- •UniVidX는 단일 멀티모달 프레임워크 내에서 여러 작업을 통합하여 다재다능한 비디오 생성을 가능하게 함
- •확률적 조건 마스킹과 저차원 적응(LoRA) 분리 기법을 활용한 새로운 아키텍처로 유연한 합성 구현
- •RGB, 내재적 맵, RGBA 레이어 등 다양한 도메인에서 우수한 성능을 입증함
비디오 생성 기술 분야는 빠르게 변화하고 있다. 과거의 특정 목적에 맞춘 전용 모델에서 벗어나, 유연성을 갖춘 통합 프레임워크로 발전하는 추세다. 최근 공개된 UniVidX는 서로 다른 비디오 생성 작업을 하나의 체계로 통합하도록 설계된 정교한 접근 방식이다. 연구진은 비디오 확산 모델을 활용해, 각 목표를 위해 별도의 복잡한 모델을 학습시킬 필요 없이 복잡한 입출력을 처리할 수 있는 시스템을 구축했다.
기존 통합 생성 모델의 주요 과제는 고정된 입출력 매핑 구조였다. 이는 모델이 서로 다른 데이터 양식 간의 상관관계를 효과적으로 학습하는 것을 방해했다. UniVidX는 픽셀 정렬 작업을 공유 공간 내의 조건부 생성으로 재정의하여 이 문제를 해결했다. 그 결과, 시스템은 표준 RGB 비디오, 조명 정보가 담긴 내재적 맵, RGBA 레이어와 같은 이질적인 데이터를 최종 합성 과정을 안내하는 조건부 입력으로 처리할 수 있게 되었다.
이 프레임워크를 지탱하는 세 가지 아키텍처 혁신이 있다. 첫째, 확률적 조건 마스킹은 학습 중 데이터 양식을 동적으로 분할하여 정적인 매핑을 넘어 전 방향 생성을 가능하게 한다. 둘째, 저차원 적응(LoRA) 분리 기법은 특정 데이터 양식이 대상이 될 때만 가벼운 적응을 수행하여 비디오 확산 모델의 핵심 성능을 유지한다. 마지막으로 교차 모달 자기 주의 기법은 정보 교환을 통해 데이터 간의 핵심 특성을 보존하며 상호 작용하도록 돕는다.
이러한 결합 기술 덕분에 UniVidX는 데이터셋 규모가 작아도 높은 범용성을 유지한다. 실제로 1,000개 미만의 비디오 데이터만으로도 강력한 성능을 확보했다. 정보 교환을 원활하게 함으로써 내재적 맵 생성이나 레이어별 비디오 블렌딩과 같은 다양한 분야에서 최상의 결과를 보여준다.
이번 성과는 거대하고 중복된 학습 파이프라인 없이도 요구 사항에 맞게 조정 가능한 효율적인 범용 생성형 비디오 시스템을 향한 중요한 진전이다.