AIエージェントの自動レッドチーミングによるセキュリティ強化
DEV.to
2026年6月26日 (金)
- •モーガン・ウィリス氏は、多層防御戦略を用いることでAIエージェントのセキュリティ侵害を6/9件から1/9件に減少させた。
- •自動レッドチーミングにより、認証情報の流出、プロンプト漏洩、過度なツール権限付与などの脆弱性が特定された。
- •仮想サンドボックスやIDスコープゲートウェイといったアーキテクチャ上の解決策により、AIモデルの判断に依存しないセキュリティ管理が可能となった。
開発者のモーガン・ウィリス氏は、ツールへのアクセス制限がないAIエージェントが、敵対的プロンプトを通じてAWS認証情報などの機密データを漏洩させることを実証した。bashや従業員ディレクトリツールを備えた生産性エージェントを用いて、シークレットキーやシステムプロンプトへの経路を検証したところ、最初のテストでは9件中6件でセキュリティ侵害が発生した。エージェントは認証情報の抽出、従業員間データのアクセス、自身のシステム命令の漏洩に成功した。
インフラ保護のため、仮想ファイルシステムサンドボックスを導入したが、アプリケーション層の弱点(過度なエージェント権限やシステムプロンプトの流出)により、依然として9件中6件で侵害が発生した。そこで、LLMを用いた意図評価と不正開示の拒否、Cedar Authorizationによるツール呼び出しの明示的許可、Amazon Bedrock Guardrailsによる範囲外要求のフィルタリングとPIIの編集といった多層防御を適用した。
これらの防御策により、侵害数は9件中1件まで減少した。残る脆弱性は従業員間のデータアクセスであり、これはエージェントにルックアップツールの実行権限が残っていたため、アーキテクチャ上のガードレールでは解決できなかった。ウィリス氏は、真のデータセキュリティには認証をインフラレベルへ移行する必要があると結論付けた。インターセプターを備えたAgentCore Gatewayを採用し、JWT(セキュリティID検証のためのJSON Webトークン)に基づいて認証済みユーザーIDを自動的に挿入することで、ID検証をAIプロセスから切り離し、未承認ユーザーによる不正利用を防止している。