LLMのセキュリティ:役割の混乱が重大な脆弱性に
Simon Willison
2026年6月24日 (水)
- •研究者は、LLMにおけるプロンプトインジェクション攻撃を可能にする主要な脆弱性として「役割の混乱」を特定した。
- •モデルの内部推論を模倣したテキスト形式を利用することで、安全フィルターを61%の成功率で回避できることが判明した。
- •入力テキストの形式を標準化する「デスタイリング」により、攻撃成功率が10%まで低下し、モデルの様式依存性が浮き彫りとなった。
チャールズ・イェ(Charles Ye)、ジャスミン・クイ(Jasmine Cui)、ディラン・ハドフィールド=メネル(Dylan Hadfield-Menell)らの研究チームは、大規模言語モデル(LLM)において「役割の混乱(Role Confusion)」と呼ばれる重大な脆弱性を特定した。調査によると、モデルは`<system>`や`<assistant>`といったタグで区別されるはずの、自身の特権的な内部指示と、ユーザーから提供される信頼できない入力を正しく区別できていない。
研究では、モデルが内容の正確性よりもテキストの様式を優先するため、安全ガードレールが無効化されることが示された。モデル内部の推論ブロックの構造やトーンを模倣したテキストを追加することで、攻撃者はモデルに本来の安全ポリシーを無視させることができる。例えば、違法薬物の製造に関する要求であっても、モデルの内部論理を模倣した形式で入力すれば、AIはそれを承認された指示であると誤認してしまう。
研究チームは、入力テキストの形式を内部の期待パターンから逸脱させる「デスタイリング(Destyling)」が、これらのリスクを大幅に軽減することを発見した。デスタイリングを行うと、プロンプトインジェクション攻撃の平均成功率は61%から10%まで低下した。これは、現状のLLMが根本的な役割認識を欠いており、微細な形式上の手がかりによって操作されやすいことを示唆している。著者らは、モデルが役割の境界を定義・維持する方法を根本から改善しない限り、次々と新たなエクスプロイトが生まれる「モグラ叩き」のような状況が続くであろうと結論づけている。