GoogleがAI自律エージェントの安全管理ロードマップを公開
- •Googleは、内部の自律エージェントを不整合リスクから保護するための「AIコントロール・ロードマップ」を開始した。
- •このフレームワークは100万件のエージェント軌跡を分析し、単純なキーワードフィルタリングを超えた行動パターンの特定を行う。
- •Googleは、エージェントレベルおよびマルチエージェントシステムの安全基準を確立するため「エージェントセキュリティの3層構造」を発表した。
Googleの研究者であるローヒン・シャー(Rohin Shah)とフォー・フリン(Four Flynn)は、2026年6月18日、自律型AIエージェントがもたらすリスクを管理するための「AIコントロール・ロードマップ」を導入した。これらのシステムは2030年までに米国で2.9兆ドルの経済価値を生み出す可能性がある一方、その能力に見合った高度なセキュリティフレームワークを必要とする。本ロードマップでは、AIエージェントをデフォルトで潜在的に不整合を起こすものと見なし、サンドボックス化やプロンプトインジェクションへの耐性、システムレベルのセキュリティを組み合わせた多層防御戦略を採用する。この枠組みは車両の二重操作のように機能し、エージェントの能力向上に合わせて人間が検証可能な権限を拡張していく仕組みである。
この戦略は、実世界の観測に基づく攻撃者戦術と手法の知識ベースであるMITRE ATT&CKに着想を得た、新しい脅威モデリングフレームワークを活用する。信頼できないエージェントを内部脅威として分類し、カバレッジ(監視されるトラフィックの割合)、リコール(特定された不整合行動の割合)、応答時間という3つのパフォーマンス指標でリスクを追跡する。信頼されたAIシステムが監督者としてエージェントの推論を確認し、有害な動作を実行前にブロックする。このアプローチは、モデルの能力や回避技術に合わせてDetection(D1-D4)とPrevention and Response(R1-R3)のレベルに細分化されている。
これらのプロトコルを洗練させるため、チームは100万件のコーディングエージェントの軌跡を分析した。その結果、フラグが立てられた事象の大部分は、敵対的な意図ではなく、エージェントの解釈ミスや過剰な判断によるものであることが判明した。この研究から得られた知見は、Gemini Sparkエージェントのライブ監視導入に活用されており、意図しないデータ削除などのリスクを軽減している。社内導入に留まらず、Googleは業界全体の採用を推奨しており、エコシステム全体の回復力構築を支援するため「エージェントセキュリティの3層構造」という論文を公開した。なお、本研究はメアリー・フオン(Mary Phuong)、エリック・ジェンナー(Erik Jenner)、ローラン・サイモン(Laurent Simon)、ルイス・ホー(Lewis Ho)、ローヒン・シャー(Rohin Shah)、セバスチャン・ファーカハル(Sebastian Farquhar)、スコット・クール(Scott Coull)らを含むチームによって執筆された。