음악 기반 댄스 영상 생성 프레임워크 'MACE-Dance' 공개
HuggingFace
2026년 5월 12일 (화)
- •MACE-Dance는 계층화된 Mixture-of-Experts 구조를 통해 음악에 맞춰 댄스 영상을 생성한다.
- •프레임워크는 3D 동작 생성을 담당하는 Motion Expert와 영상 합성을 위한 Appearance Expert로 역할을 나눈다.
- •3D 댄스 생성 및 포즈 기반 이미지 애니메이션 분야에서 최첨단 성능을 달성했다.
연구진은 2026년 5월 11일, 음악에서 댄스 영상을 생성하는 프레임워크인 MACE-Dance를 발표했다. 이 시스템은 계층화된 Mixture-of-Experts(MoE) 구조를 활용해 영상 합성을 동작 생성과 외형 유지 단계로 분리함으로써, 기존의 시각적 품질과 인간의 사실적인 움직임 구현 사이의 한계를 극복했다.
구체적으로 프레임워크는 두 가지 전문 구성 요소로 처리 과정을 나눈다. Motion Expert는 BiMamba-Transformer 하이브리드 모델과 Kinematic plausibility를 보장하기 위한 Guidance-Free Training(GFT) 전략을 결합해 음악을 3D 동작으로 변환한다. 이어 Appearance Expert가 영상 합성을 관리하며, 인물의 정체성과 시공간적 일관성을 유지한다.
MACE-Dance는 3D 댄스 생성 및 포즈 기반 이미지 애니메이션에서 최첨단(SOTA) 성능을 입증했다. 연구팀은 이러한 결과의 타당성을 검증하기 위해 새로운 대규모 데이터셋을 구축하고, 동작과 외형을 평가하기 위한 고유한 프로토콜을 수립했다.