DomainShuttleによる動画生成の柔軟性向上
HuggingFace
2026年6月26日 (金)
- •DomainShuttleはドメインの内外を問わず、柔軟な被写体主導型のテキストから動画への生成(S2V)を可能にする。
- •Domain-MoTと回転式位置エンコーディング (RoPE)を活用し、参照画像と動画コンテンツを分離してモデル化する。
- •研究チームは2026年6月24日に本手法を発表し、被写体の再現度と生成の自由度において向上した成果を実証した。
DomainShuttleは、被写体の再現性とスタイルの柔軟性を両立させる、オープンドメインでの被写体主導型テキストから動画への生成(S2V)手法である。ナン・チェン(Nan Chen)ら研究チームは2026年6月24日に本研究を発表し、被写体の特徴を保持しつつ、新たなスタイルや意味的変化を伴うクロスドメインでの編集を可能にする課題に取り組んだ。従来の手法はドメイン内での再現性に重点を置いていたが、DomainShuttleは多様なアプリケーションドメインに適応する精緻な被写体モデリングを実現している。
これを実現するため、本手法は動画と参照特徴量を分離するDomain-MoTを採用している。これにはAdaLN(ドメイン属性に基づきレイヤーパラメータを調整する正規化技術)が用いられ、参照画像の特化したモデリングを行う。さらに回転式位置エンコーディング (RoPE)を採用したVideo-Reference DualRoPEスキームにより、参照画像のトークンと動画トークンを個別の空間に配置し、被写体の空間的なモデリングを正確にした。加えて、Cross-Pair Consistent Loss関数が被写体の固有特性を抽出し不要な特徴を無視することで、既存技術を上回る生成性能を多様なシナリオで達成した。