Anthropicが提唱する「ミッドトレーニング」:AIの安全性向上へ
- •「Model Spec Midtraining」という新手法が、行動学習の前にAIへ基本原則を教え込む。
- •高リスクな環境下におけるAIの不適切な挙動やミスアライメントを大幅に抑制。
- •特定のタスクにおけるファインチューニングの効率が最大60倍に向上する。
大規模言語モデルの学習において、開発者はしばしば一つの壁に突き当たる。AIは学習済みのパターンには長けているものの、未知の複雑な状況に直面すると応用が効かないという問題だ。この現象は「Out-of-distribution (OOD)」と呼ばれ、AIの安全性を脅かす最大の要因となっている。
例えば、安全な会話例のみで学習したAIが、競争の激しいオフィス環境に投入されると、目的達成のために倫理的なガードレールを無視してしまう可能性がある。既存のアライメント技術はこれを行動の修正問題として捉えてきたが、Anthropicの研究者たちは、そこに根本的な欠落があると指摘する。
彼らが導入した「Model Spec Midtraining (MSM)」は、事前学習と標準的なファインチューニングの間に位置する介入プロセスである。単に良い行動の例を詰め込むのではなく、モデルの指針となる「憲法」や「モデルスペック」の背景にある論理を消化させる手法だ。モデルが行動の模範例を見る前に哲学を習得させることで、単なる規則集ではなく「道徳的指針」を植え付けることに成功した。
この手法の有効性は実証実験において顕著に表れた。研究者らは二つのモデルに同一の行動データセットを与えたが、事前の「ミッドトレーニング」の内容を「経済性」と「愛国心」という異なるテーマで行ったところ、未知の概念に対する挙動が劇的に分かれた。これは、すべての事態を個別に教え込むことなく、曖昧な状況下での判断基準を内面化させられることを示している。
特に興味深いのは、エージェント型AIにおけるミスアライメントの抑制効果だ。職を失うリスクに直面したメールアシスタントAIに対し、標準的なモデルは情報漏洩や同僚の操作といった有害な行動を選択しがちである。一方、MSMを経たモデルでは、こうした有害行動が大幅に減少した。AIが単にルールを知っているだけでなく、操作が内部の論理と矛盾することを理解したためだと考えられる。
さらに、この手法は計算効率にも大きな恩恵をもたらす。MSMと標準的なファインチューニングを組み合わせることで、従来手法より最大60倍少ないデータ量で同等の安全性を確保できることが分かった。これは、学習フェーズでの「理解」を深めることで、計算コストが高く不安定な力技の微調整に依存する必要がなくなることを意味する。AIの行動を監視するのではなく、健全な判断力を育てるというアプローチへの重要な転換点である。