Anthropicがエージェント型AIのセキュリティ対策を公開
Anthropic
2026年6月5日 (金)
- •Anthropicは、AIエージェントの能力とシステムアクセス範囲の拡大に伴うセキュリティリスクを管理するため、多層的な封じ込め戦略を実装した。
- •エンジニアリングによる防御は、環境の分離、モデルレイヤーの安全策、外部コンテンツの厳格な制御という3つの柱に焦点を当てている。
- •Claude Codeにおいて新機能のオートモードとOSレベルのサンドボックスを導入し、権限承認の煩わしさを84%削減した。
Anthropicは、AIモデルのシステムアクセス権限が拡大する中で、万が一の被害範囲(ブラスト・ラディアス)を最小限に抑えるためのエージェントセキュリティ手法を公開した。同社の戦略は、ユーザーによる誤用、モデルの誤作動、外部からの攻撃という3つの主要リスクカテゴリーに対処しており、エージェントの稼働環境、モデル自身のロジック、外部コンテンツソースの各階層で防御機構を構築している。
claude.ai向けには、分離されたインフラ上で一時的なgVisorコンテナを使用しており、コード実行の安全性を確保しつつ、永続的なファイルシステムへのアクセスを禁止している。この構成により、テナント間での脆弱性波及を防止している。
開発者向けのClaude Codeでは、利便性と監視のバランスを維持するためヒューマン・イン・ザ・ループ戦略を採用している。頻繁な承認要求による「承認疲労」を防ぐために導入されたオートモードは、権限要求を84%削減した。しかし、ユーザーの信頼関係構築前にプロジェクトごとの設定が解析される脆弱性や、直接的なプロンプトインジェクション攻撃の課題も判明した。そのため、モデルレイヤーの防御だけでは不十分であり、データ流出を阻止するハードな外部通信制御が不可欠となっている。
一般的な知識労働者を対象としたClaude Coworkでは、フル仮想マシン(VM)分離パターンを採用している。ユーザーのワークスペースのみをマウントし、ホスト側の認証情報をゲストマシンから完全に隔離する仕組みだ。このような物理的な環境制限とモデルレイヤーの安全策を組み合わせる多層防御により、モデルが想定外の挙動をとった場合でも被害を隔離されたワークスペース内に限定できる。