動画AIモデルにおける物理推論の構造を解明
Meta AI Research
2026年7月5日 (日)
- •研究チームは動画エンコーダー内に、物理変数が線形的にアクセス可能となる「物理創発領域」を特定した。
- •動画モデルにおける運動方向の表現は、霊長類の視覚皮質に見られる視覚処理階層を模倣している。
- •物理予測は物理エンジンのようなコンパクトな状態変数ではなく、複雑で分散された高次元の集団符号に依存している。
ソニア・ジョセフ(Sonia Joseph)やクエンティン・ガリード(Quentin Garrido)らを含む研究チームは、2026年7月3日に「動画世界モデルにおける物理学の解釈」と題する論文を発表した。本研究は、大規模な動画エンコーダーが物理変数をどのように表現しているかを調査し、これらのモデルが因数分解された状態を利用しているのか、あるいはタスク固有の分散表現を用いているのかを検証した。層ごとのプローブ調査、部分空間幾何学、パッチレベルのデコーディング、標的を絞ったアテンション除去などの手法を用い、モデル内部の物理情報の組織化を明らかにした。
調査の結果、物理変数が線形的にアクセス可能となる中層のアーキテクチャ、「物理創発領域」と呼ばれる構造的転換点が特定された。速度や加速度といったスカラー特性はモデルの初期層で観察可能だが、運動方向は物理創発領域において初めてアクセス可能となる。この進行は、霊長類の視覚皮質におけるV1からMT領域の運動処理階層と平行している。
本研究は、運動方向が高次元の集団符号(多数のニューロンの活動パターンを通じて変数を表現する手法)として符号化されていることを明らかにした。デコードされた方向を修正するには数十もの直交するプローブ次元を同時に制御する必要があり、これは言語モデルで見られる低次元の制御よりもはるかに大規模な介入を要する。この証拠は、エンジン型のコンパクトな物理状態変数の存在を否定し、物理予測タスクにおいて有効な、分散的かつ階層的に組織化された表現モデルを支持している。本研究は国際機械学習会議(ICML)によって発表され、理論機械学習と人間・機械知能の交差点に焦点を当てている。