바이트댄스, 시청각 통합 생성 AI DreamID-Omni 공개
- •바이트댄스가 인간 중심의 비디오와 오디오를 제어하며 동시에 생성하는 통합 프레임워크인 DreamID-Omni를 발표했다.
- •새로운 '이중 레벨 분리' 기술을 통해 다인원 비디오에서 인물의 신원과 목소리가 뒤섞이는 오류와 혼동을 방지했다.
- •이 모델은 일관성과 품질 면에서 기존의 주요 상용 모델을 능가하는 세계 최고 수준의 성능을 달성했다.
바이트댄스가 동기화된 인간 중심 비디오와 오디오를 생성하는 고난도 작업을 수행하기 위해 야심 찬 AI 프레임워크인 DreamID-Omni를 선보였다. 기존 모델들은 한 장면에 여러 사람이 등장할 경우 목소리나 얼굴 식별 정보를 혼동하는 경우가 잦았으나, 이 시스템은 Symmetric Conditional Diffusion Transformer를 활용해 모든 요소를 정확한 위치에 배치한다. 특히 연구진은 비디오 편집, 오디오 기반 애니메이션, 참조 기반 생성을 하나의 통합된 작업으로 처리함으로써 디지털 콘텐츠 제작을 위한 더욱 다재다능한 도구를 만들어냈다.
이번 성과의 핵심은 캐릭터가 타인의 목소리로 말하게 되는 '신원-음색 결합 오류'를 차단하는 이중 레이어 전략에 있다. 개발팀은 수학적 수준에서 특정 인물의 얼굴 신호가 해당 목소리에 엄격하게 연결되도록 보장하는 기술인 Synchronized Rotary Positional Embeddings를 도입했다. 여기에 명확한 의미론적 매핑을 통해 AI에게 어떤 속성이 어느 피사체에 속하는지 정확히 지시하는 '구조화된 캡션' 방식을 보완하여 생성의 정밀도를 높였다.
기술적 정밀함을 넘어 DreamID-Omni는 '다작업 점진적 학습' 체계를 채택했다는 점도 주목할 만하다. 이에 따라 모델은 립싱크처럼 제약이 큰 세부 작업에 집중하기 전, 광범위하고 창의적인 패턴을 먼저 학습할 수 있게 되었다. 이러한 '소프트-투-하드(soft-to-hard)' 방식의 학습은 모델이 특정 데이터에 과도하게 최적화되거나 경직되는 현상을 방지한다. 그 결과, DreamID-Omni는 기존 학계 연구를 넘어 최고급 상용 모델보다 시각적, 청각적 조화 유지 측면에서 뛰어난 성능을 입증했다.