AI 비교하기AI 교차검증AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침FAQ문의하기

DomainShuttle, 피사체 중심의 비디오 생성 성능 강화

DomainShuttle, 피사체 중심의 비디오 생성 성능 강화

HuggingFace
2026년 6월 26일 (금)
  • •DomainShuttle은 도메인 내·외부를 아우르는 유연한 피사체 중심의 텍스트-비디오 생성을 지원한다.
  • •Domain-MoT와 회전식 위치 인코딩(RoPE) 기반의 이중 구조를 적용해 참조 이미지와 비디오 콘텐츠를 효과적으로 분리했다.
  • •연구진은 2026년 6월 24일 해당 기술을 공개하며 피사체 충실도와 생성 유연성이 개선되었음을 입증했다.
  • •DomainShuttle은 도메인 내·외부를 아우르는 유연한 피사체 중심의 텍스트-비디오 생성을 지원한다.
  • •Domain-MoT와 회전식 위치 인코딩(RoPE) 기반의 이중 구조를 적용해 참조 이미지와 비디오 콘텐츠를 효과적으로 분리했다.
  • •연구진은 2026년 6월 24일 해당 기술을 공개하며 피사체 충실도와 생성 유연성이 개선되었음을 입증했다.

DomainShuttle은 피사체 충실도와 스타일 유연성을 동시에 확보하기 위한 개방형 도메인 피사체 중심 텍스트-비디오(S2V) 생성 기법이다. 난 천(Nan Chen)을 비롯한 연구진은 2026년 6월 24일 이 연구를 발표하며, 참조 피사체의 특징을 유지하면서 새로운 스타일이나 의미론적 변화와 같은 도메인 간 편집을 가능하게 하는 기술적 난제를 해결했다. 기존 방법론이 도메인 내 충실도에 집중했던 것과 달리, 이 기법은 다양한 응용 도메인에 걸쳐 정밀한 피사체 단위 모델링을 지원한다.

이를 구현하기 위해 도메인 인식 AdaLN(도메인 속성에 따라 레이어 매개변수를 조정하는 정규화 기술)을 사용하는 Domain-MoT를 도입하여 비디오와 참조 특징을 분리하고 참조 이미지를 구체적으로 모델링한다. 또한 비디오-참조 회전식 위치 인코딩(RoPE) 이중 구조를 통해 참조 이미지 토큰과 비디오 토큰을 별도의 회전식 위치 인코딩 공간에 배치한다. 이러한 분리는 피사체의 정밀한 공간적 모델링을 보장한다. 아울러 교차 쌍 일관성 손실 함수(Cross-Pair Consistent Loss)를 적용해 불필요한 요소를 제거하고 본질적인 피사체 특성을 추출함으로써, 다양한 생성 환경에서 기존 기술 대비 향상된 성능을 나타낸다.

DomainShuttle은 피사체 충실도와 스타일 유연성을 동시에 확보하기 위한 개방형 도메인 피사체 중심 텍스트-비디오(S2V) 생성 기법이다. 난 천(Nan Chen)을 비롯한 연구진은 2026년 6월 24일 이 연구를 발표하며, 참조 피사체의 특징을 유지하면서 새로운 스타일이나 의미론적 변화와 같은 도메인 간 편집을 가능하게 하는 기술적 난제를 해결했다. 기존 방법론이 도메인 내 충실도에 집중했던 것과 달리, 이 기법은 다양한 응용 도메인에 걸쳐 정밀한 피사체 단위 모델링을 지원한다.

이를 구현하기 위해 도메인 인식 AdaLN(도메인 속성에 따라 레이어 매개변수를 조정하는 정규화 기술)을 사용하는 Domain-MoT를 도입하여 비디오와 참조 특징을 분리하고 참조 이미지를 구체적으로 모델링한다. 또한 비디오-참조 회전식 위치 인코딩(RoPE) 이중 구조를 통해 참조 이미지 토큰과 비디오 토큰을 별도의 회전식 위치 인코딩 공간에 배치한다. 이러한 분리는 피사체의 정밀한 공간적 모델링을 보장한다. 아울러 교차 쌍 일관성 손실 함수(Cross-Pair Consistent Loss)를 적용해 불필요한 요소를 제거하고 본질적인 피사체 특성을 추출함으로써, 다양한 생성 환경에서 기존 기술 대비 향상된 성능을 나타낸다.

원문 보기 (영어)·2026년 6월 26일
#text to video#domainshuttle#video generation#rope#adaln#generative ai