長期的計画を実現する新手法「GRASP」が登場
- •GRASPは複雑な環境下での長期的な計画立案を可能にする勾配ベースのプランナーである
- •並列的な状態とアクションの最適化により、長期的な計画の脆弱性を解決した
- •勾配の伝播を制御することで、深層学習モデル特有の敵対的なフィードバックを抑制する
AIエージェントの構築において、「ワールドモデル」は欠かせない概念である。これはAIが行動を起こす前に、環境がどう反応するかを内部シミュレーター上で予測する仕組みを指す。現代のモデルは画像認識等の短期的な予測には長けているが、長期的なタイムラインを見据えた計画立案には依然として課題を抱えている。
AIが未来を遠くまで予測しようとすると、数学的な最適化プロセスが破綻し、計画が断片的あるいは無効化されてしまうことが多い。この構造的弱点を克服するため、研究チームはGRASP(Gradient RelAxed Stochastic Planner)という新たな手法を開発した。従来のプランナーは全行動シーケンスを一括で最適化しようとするが、計画の期間が長くなるほど計算が不安定になり、最適化計算が発散してしまう傾向があった。
GRASPは「リフティング」と呼ばれる手法を用い、時間に対するモデルの処理方法を変革した。環境のルールを厳格な命令としてではなく柔軟な制約として扱い、状態とアクションを時間軸に沿って並列で最適化する。これにより、逐次処理特有の脆さを回避し、複雑な計算をより管理しやすい並列タスクへと変換することに成功した。
さらに、研究ではモデルが入力情報をどのように処理するかの重要性も示された。深層学習モデルは高次元空間において、有効なデータに見えて実はエラーである「ショートカット」を学習しやすい。研究チームは計画プロセスにおいて、状態入力への勾配を止めつつ、アクション入力への勾配を維持するというフィルタリングを行い、モデルを危険なフィードバックから保護した。
最終的に、状態更新に確率的なノイズを付加することで探索能力を向上させた。これにより、論理的な勾配に基づく道筋で行き詰まった場合でも、別のルートを探ることが可能となった。GRASPは、単なる目の前の最適化ではなく、将来を見据えた一貫性のある意思決定を必要とするAIエージェントの開発に向けた大きな前進と言える。