AIの憲法分類器に潜む脆弱性、データ汚染の脅威
- •少数の汚染データで憲法分類器にバックドアを仕込むことが可能である。
- •バックドアの挿入は、一般的な堅牢性評価であるレッドチーミングをすり抜けることが多い。
- •「擬似バックドア」データを用いた学習が、こうした攻撃への有効な防御策となる。
AIの安全性を確保するための競争が続く中、データポイズニングという巧妙かつ危険な脆弱性が浮き彫りになった。AIの安全性を研究する企業であるAnthropicの研究チームは、有害な入力のフィルタリングやジェイルブレイク防止を目的とした「憲法分類器」が、悪意のある攻撃者によって改ざんされる可能性を調査した。
調査の結果、攻撃者は膨大なデータを制御する必要がないことが判明した。わずか32件の汚染データを微調整用データセットに紛れ込ませるだけで、機能するバックドアのインストールが可能となるのだ。このバックドアは秘密のバイパスとして機能し、特定のトリガーフレーズが入力されると、本来ブロックされるべき有害なプロンプトをすり抜けさせる。
この攻撃の恐ろしさは、標準的な安全性評価であるレッドチーミングにおいて、バックドアが検知されにくい点にある。レッドチーミングとは、人間が攻撃的なプロンプトを試行してシステムの安全性を検証する工程だが、この攻撃はそれらを通じて露見することがほとんどない。防御のために設計されたはずのシステムが、自らその防御を無効化してしまう事態に陥るのだ。
学習データの量を増やせば、汚染データの影響を薄められると考えるかもしれない。しかし、調査によれば、モデルを脅かすために必要なデータ数は、データセット全体の規模に関わらず一定であった。これは、開発者にとって重要な教訓を示唆している。微調整用データセットの整合性確保は、データの量よりも、より細かく厳格な検証が求められるプロセスであるということだ。
一方で、防御策の可能性も見えてきた。研究チームは「ほぼバックドア」と呼ぶ手法を提案している。これは、トリガーフレーズの変異型を含むが、正しい有害ラベルを付与したデータを学習させるものだ。これによりモデルは罠を識別できるようになり、防御境界が強化される。今後、安全性を優先するモデル開発において、極めて重要な指針となるだろう。