DomainShuttle, 피사체 중심의 비디오 생성 성능 강화
HuggingFace
2026년 6월 26일 (금)
- •DomainShuttle은 도메인 내·외부를 아우르는 유연한 피사체 중심의 텍스트-비디오 생성을 지원한다.
- •Domain-MoT와 회전식 위치 인코딩(RoPE) 기반의 이중 구조를 적용해 참조 이미지와 비디오 콘텐츠를 효과적으로 분리했다.
- •연구진은 2026년 6월 24일 해당 기술을 공개하며 피사체 충실도와 생성 유연성이 개선되었음을 입증했다.
DomainShuttle은 피사체 충실도와 스타일 유연성을 동시에 확보하기 위한 개방형 도메인 피사체 중심 텍스트-비디오(S2V) 생성 기법이다. 난 천(Nan Chen)을 비롯한 연구진은 2026년 6월 24일 이 연구를 발표하며, 참조 피사체의 특징을 유지하면서 새로운 스타일이나 의미론적 변화와 같은 도메인 간 편집을 가능하게 하는 기술적 난제를 해결했다. 기존 방법론이 도메인 내 충실도에 집중했던 것과 달리, 이 기법은 다양한 응용 도메인에 걸쳐 정밀한 피사체 단위 모델링을 지원한다.
이를 구현하기 위해 도메인 인식 AdaLN(도메인 속성에 따라 레이어 매개변수를 조정하는 정규화 기술)을 사용하는 Domain-MoT를 도입하여 비디오와 참조 특징을 분리하고 참조 이미지를 구체적으로 모델링한다. 또한 비디오-참조 회전식 위치 인코딩(RoPE) 이중 구조를 통해 참조 이미지 토큰과 비디오 토큰을 별도의 회전식 위치 인코딩 공간에 배치한다. 이러한 분리는 피사체의 정밀한 공간적 모델링을 보장한다. 아울러 교차 쌍 일관성 손실 함수(Cross-Pair Consistent Loss)를 적용해 불필요한 요소를 제거하고 본질적인 피사체 특성을 추출함으로써, 다양한 생성 환경에서 기존 기술 대비 향상된 성능을 나타낸다.