Guavaが具現化AIの操作能力を強化
HuggingFace
2026年6月19日 (金)
- •研究チームは、高度な推論と外部モジュールを活用して具現化AIの操作を支援するフレームワーク「Guava」を発表した。
- •4Bパラメータのモデルは、2,000件未満のシミュレーション軌道での学習により、最先端の独自モデルに匹敵する性能を達成した。
- •Guavaは、知覚・推論・行動の反復ループ、意味的な行動抽象化、マルチモーダルな観察を効果的な具現化エージェントの鍵と特定した。
研究チームは、高度な推論と知覚・計画・制御のための専門的な外部モジュールを統合し、具現化AI(物理環境で行動するエージェント)の操作タスクを強化するフレームワーク「Guava」を発表した。2026年6月16日に公開された本研究では、エージェントのワークフローや行動空間、観察空間の設計を考察し、効果的な具現化システムに必要な要件を特定した。チームが挙げた性能向上の3つの基本要素は、世界状態を更新し計画を立て続ける「知覚・推論・行動の反復ループ」、低レベルなモーター動作を上位レベルの指示にまとめる「意味的な行動抽象化」、そして「マルチモーダル観察」である。
この原則の普遍性を検証するため、研究者らは具現化能力を4Bパラメータのオープンソースモデルに蒸留するエンドツーエンドの学習パイプラインを開発した。このモデルは、完全にシミュレーション環境で収集された2,000件未満の軌道データのみで学習されている。シミュレーションおよび実環境での実験結果は、このコンパクトな4Bモデルが最先端の独自モデルと同等の性能を達成することを示した。さらに、未知の物体や新しい指示、複数のステップを必要とする「長期的なタスク(完了までに数多くの判断や行動の連続を要する複雑な作業)」に対しても、優れた汎化能力を示している。
この知見は、適切に設計されたフレームワークがモデルの種類を問わないスケーラブルなインターフェースとして機能し、小規模な言語モデルでも具現化能力を引き出せることを示唆している。このアプローチは、従来のエンドツーエンドの視覚・言語・行動システムに対する実用的な代替案であり、膨大な学習データなしで複雑な操作シナリオにおいて高い有効性を維持できる。