이 기사의 핵심 내용은?

MACE-Dance는 계층화된 Mixture-of-Experts 구조를 통해 음악에 맞춰 댄스 영상을 생성한다. 프레임워크는 3D 동작 생성을 담당하는 Motion Expert와 영상 합성을 위한 Appearance Expert로 역할을 나눈다. 3D 댄스 생성 및 포즈 기반 이미지 애니메이션 분야에서 최첨단 성능을 달성했다.

음악 기반 댄스 영상 생성 프레임워크 'MACE-Dance' 공개

•MACE-Dance는 계층화된 Mixture-of-Experts 구조를 통해 음악에 맞춰 댄스 영상을 생성한다.
•프레임워크는 3D 동작 생성을 담당하는 Motion Expert와 영상 합성을 위한 Appearance Expert로 역할을 나눈다.
•3D 댄스 생성 및 포즈 기반 이미지 애니메이션 분야에서 최첨단 성능을 달성했다.

연구진은 2026년 5월 11일, 음악에서 댄스 영상을 생성하는 프레임워크인 MACE-Dance를 발표했다. 이 시스템은 계층화된 Mixture-of-Experts(MoE) 구조를 활용해 영상 합성을 동작 생성과 외형 유지 단계로 분리함으로써, 기존의 시각적 품질과 인간의 사실적인 움직임 구현 사이의 한계를 극복했다.

구체적으로 프레임워크는 두 가지 전문 구성 요소로 처리 과정을 나눈다. Motion Expert는 BiMamba-Transformer 하이브리드 모델과 Kinematic plausibility를 보장하기 위한 Guidance-Free Training(GFT) 전략을 결합해 음악을 3D 동작으로 변환한다. 이어 Appearance Expert가 영상 합성을 관리하며, 인물의 정체성과 시공간적 일관성을 유지한다.

MACE-Dance는 3D 댄스 생성 및 포즈 기반 이미지 애니메이션에서 최첨단(SOTA) 성능을 입증했다. 연구팀은 이러한 결과의 타당성을 검증하기 위해 새로운 대규모 데이터셋을 구축하고, 동작과 외형을 평가하기 위한 고유한 프로토콜을 수립했다.

연구진은 2026년 5월 11일, 음악에서 댄스 영상을 생성하는 프레임워크인 MACE-Dance를 발표했다. 이 시스템은 계층화된 Mixture-of-Experts(MoE) 구조를 활용해 영상 합성을 동작 생성과 외형 유지 단계로 분리함으로써, 기존의 시각적 품질과 인간의 사실적인 움직임 구현 사이의 한계를 극복했다.

구체적으로 프레임워크는 두 가지 전문 구성 요소로 처리 과정을 나눈다. Motion Expert는 BiMamba-Transformer 하이브리드 모델과 Kinematic plausibility를 보장하기 위한 Guidance-Free Training(GFT) 전략을 결합해 음악을 3D 동작으로 변환한다. 이어 Appearance Expert가 영상 합성을 관리하며, 인물의 정체성과 시공간적 일관성을 유지한다.

MACE-Dance는 3D 댄스 생성 및 포즈 기반 이미지 애니메이션에서 최첨단(SOTA) 성능을 입증했다. 연구팀은 이러한 결과의 타당성을 검증하기 위해 새로운 대규모 데이터셋을 구축하고, 동작과 외형을 평가하기 위한 고유한 프로토콜을 수립했다.