スタンフォード大学AI研究所、CVPR 2026で最新研究を発表
- •スタンフォード大学AI研究所は6月3日から7日までデンバーで開催されるCVPR 2026において多岐にわたる研究成果を発表した。
- •動画生成、身体化AI、医療用基盤モデル、ロボット操作技術など広範な分野で技術革新を示した。
- •「スケーリング・ベリフィケーション」を含む複数の論文が最優秀論文賞の最終候補に選出されるなど高い評価を獲得した。
スタンフォード大学AI研究所(SAIL)は、コロラド州デンバーにて6月3日から6月7日まで開催されるコンピュータビジョンとパターン認識に関する国際会議(CVPR 2026)にて、幅広い研究成果を披露した。同研究所は動画生成、ロボット学習、医療画像解析などの分野で貢献を果たし、複数の論文が各賞の候補に挙がっている。
動画分野では、自己回帰型動画拡散モデルのドリフトを抑制する手法「BAgger」や、4D動画合成における時間とカメラ位置を切り離して制御するシステム「BulletTime」が注目を集めた。さらに、4D動作生成を行う「Choreographing a World of Dynamic Objects」、動画モデルのアイデンティティ制御用プラグイン「Stand-In」、手とカメラ操作による対話的動画生成を実現する「Generated Reality」、3D再構築を強化する「GaussFusion」などが発表された。
身体化AI(物理環境と相互作用するシステム)の領域では、自己中心視点データを用いたVLA(視覚・言語・行動モデル)のファインチューニングを行う「Ego-Pi」や、模倣学習による全身のモバイル操作手法「HoMMI」、ツールを活用した3D物体配置システム「VULCAN」が登場した。中でも「Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment」は最優秀論文賞の最終候補に選ばれている。
その他、物理的に制御可能な世界モデルを用いた物体理解や「Spherical Leech Quantization」も賞の候補に挙がった。医療分野では、アルツハイマー病の臨床応用に向けた脳MRI基盤モデルをスパースオートエンコーダーでアノテーションする「GeoSAE」が提示された。最後には、基盤モデルが能動的探索を通じて空間認識を形成するプロセスを調査した「Theory of Space」が報告されている。