この記事の要点は？

OmniDirectorは、ビデオ生成においてマルチショットのカメラ動作クローンを可能にするグリッドモーションビデオを導入した。同フレームワークは100万件以上のカメラグリッドとビデオのペアで学習し、動作とカメラワークを調整する。階層型プロンプト拡張エージェントにより、複数の制御信号を統合しビデオ生成性能を向上させた。

OmniDirector、マルチショットのカメラ動作クローンを実現

HuggingFace

2026年6月16日 (火)

•OmniDirectorは、ビデオ生成においてマルチショットのカメラ動作クローンを可能にするグリッドモーションビデオを導入した。
•同フレームワークは100万件以上のカメラグリッドとビデオのペアで学習し、動作とカメラワークを調整する。
•階層型プロンプト拡張エージェントにより、複数の制御信号を統合しビデオ生成性能を向上させた。

•OmniDirectorは、ビデオ生成においてマルチショットのカメラ動作クローンを可能にするグリッドモーションビデオを導入した。
•同フレームワークは100万件以上のカメラグリッドとビデオのペアで学習し、動作とカメラワークを調整する。
•階層型プロンプト拡張エージェントにより、複数の制御信号を統合しビデオ生成性能を向上させた。

劉継文（Jiwen Liu）が率いる研究チームは、参照動画からマルチショットの動画生成を可能にするカメラ動作クローニングフレームワーク「OmniDirector」を発表した。この手法は、複雑な動作の再現が困難な従来のパラメータ表現モデルや、学習データが不足しがちなクロスペアデータ依存の課題を解決する。カメラパラメータを視覚的にエンコードし、多様な移動軌跡の統合を支援する新しい表現手法「グリッドモーションビデオ」を採用している。

OmniDirectorは100万件を超えるカメラグリッドとビデオのペアで学習されており、キャラクターの動き、アクション、カメラアングルをディフュージョン・トランスフォーマー上で調整する。本フレームワークには、カメラ動作と視覚コンテンツの関係を系統的に解釈し、異なる制御信号を調和させる階層型プロンプト拡張エージェントが含まれる。これらの入力を合成することで、監督レベルの制御を提供し、6月11日の発表によると、複雑な生成タスクにおいて既存の手法を上回る性能と制御性を実証した。

原文(英語)を読む·2026年6月16日

#video generation #camera cloning #diffusion transformers #multimodal #computer vision

OmniDirector、マルチショットのカメラ動作クローンを実現

HuggingFace

2026年6月16日 (火)

•OmniDirectorは、ビデオ生成においてマルチショットのカメラ動作クローンを可能にするグリッドモーションビデオを導入した。
•同フレームワークは100万件以上のカメラグリッドとビデオのペアで学習し、動作とカメラワークを調整する。
•階層型プロンプト拡張エージェントにより、複数の制御信号を統合しビデオ生成性能を向上させた。

•OmniDirectorは、ビデオ生成においてマルチショットのカメラ動作クローンを可能にするグリッドモーションビデオを導入した。
•同フレームワークは100万件以上のカメラグリッドとビデオのペアで学習し、動作とカメラワークを調整する。
•階層型プロンプト拡張エージェントにより、複数の制御信号を統合しビデオ生成性能を向上させた。

原文(英語)を読む·2026年6月16日

#video generation #camera cloning #diffusion transformers #multimodal #computer vision