이 기사의 핵심 내용은?

OmniDirector는 그리드 모션 비디오를 도입해 비디오 생성 시 다중 샷 카메라 모션 클로닝을 지원한다. 해당 프레임워크는 100만 개 이상의 카메라 그리드-비디오 쌍으로 학습되어 동작과 카메라 각도를 조율한다. 계층적 프롬프트 확장 에이전트가 다중 제어 신호를 체계적으로 통합해 비디오 생성 성능을 개선했다.

OmniDirector, 다중 샷 카메라 모션 클로닝 구현

HuggingFace

2026년 6월 16일 (화)

•OmniDirector는 그리드 모션 비디오를 도입해 비디오 생성 시 다중 샷 카메라 모션 클로닝을 지원한다.
•해당 프레임워크는 100만 개 이상의 카메라 그리드-비디오 쌍으로 학습되어 동작과 카메라 각도를 조율한다.
•계층적 프롬프트 확장 에이전트가 다중 제어 신호를 체계적으로 통합해 비디오 생성 성능을 개선했다.

•OmniDirector는 그리드 모션 비디오를 도입해 비디오 생성 시 다중 샷 카메라 모션 클로닝을 지원한다.
•해당 프레임워크는 100만 개 이상의 카메라 그리드-비디오 쌍으로 학습되어 동작과 카메라 각도를 조율한다.
•계층적 프롬프트 확장 에이전트가 다중 제어 신호를 체계적으로 통합해 비디오 생성 성능을 개선했다.

지원 리우(Jiwen Liu)가 이끄는 연구팀은 참조 비디오로부터 다중 샷 비디오 생성을 가능하게 하는 카메라 모션 클로닝 프레임워크인 OmniDirector를 발표했다. 기존 모델은 복잡한 모션 처리에 취약한 파라메트릭 표현 방식이나 희소한 교차 쌍 데이터를 주로 사용하여 한계가 있었다. 이를 개선하기 위해 시스템은 그리드 모션 비디오라는 새로운 표현 방식을 채택하여 카메라 매개변수를 시각적으로 인코딩하고, 다양한 이동 궤적을 효과적으로 통합한다.

OmniDirector는 100만 개가 넘는 카메라 그리드-비디오 쌍 데이터셋으로 학습되어 캐릭터의 움직임, 동작, 그리고 카메라 앵글을 디퓨전 트랜스포머 환경에서 유기적으로 조율한다. 프레임워크 내부의 계층적 프롬프트 확장 에이전트는 카메라 모션과 시각적 콘텐츠 간의 관계를 체계적으로 해석하여 여러 제어 신호가 조화롭게 작동하도록 설계되었다. 6월 11일 발표된 연구 결과에 따르면, 이 모델은 복잡한 생성 작업에서 이전 방법론들보다 우수한 성능과 제어 능력을 보여준다.

원문 보기 (영어)·2026년 6월 16일

#video generation #camera cloning #diffusion transformers #multimodal #computer vision

OmniDirector, 다중 샷 카메라 모션 클로닝 구현

HuggingFace

2026년 6월 16일 (화)

•OmniDirector는 그리드 모션 비디오를 도입해 비디오 생성 시 다중 샷 카메라 모션 클로닝을 지원한다.
•해당 프레임워크는 100만 개 이상의 카메라 그리드-비디오 쌍으로 학습되어 동작과 카메라 각도를 조율한다.
•계층적 프롬프트 확장 에이전트가 다중 제어 신호를 체계적으로 통합해 비디오 생성 성능을 개선했다.

•OmniDirector는 그리드 모션 비디오를 도입해 비디오 생성 시 다중 샷 카메라 모션 클로닝을 지원한다.
•해당 프레임워크는 100만 개 이상의 카메라 그리드-비디오 쌍으로 학습되어 동작과 카메라 각도를 조율한다.
•계층적 프롬프트 확장 에이전트가 다중 제어 신호를 체계적으로 통합해 비디오 생성 성능을 개선했다.

원문 보기 (영어)·2026년 6월 16일

#video generation #camera cloning #diffusion transformers #multimodal #computer vision