新しいAI学習手法:専門スキルを統合する「CoPD」の登場
- •研究者らが、専門的能力を統合するための新しい手法「CoPD」を発表した。
- •並列学習により、能力の喪失や行動の乖離を解消することに成功した。
- •CoPDはテキスト、画像、動画の推論タスクにおいて既存のRLVRを凌駕する性能を示す。
法的文書の分析から動画の解釈まで、あらゆる分野で優れた能力を発揮するAIモデルの開発には、専門的なスキルをいかに統合するかという大きな課題がある。従来の学習手法では、モデルがある分野の専門家として訓練されると、別の分野のパターンと衝突し、本来持っていたはずの能力を忘却してしまう「能力喪失」という問題が避けられなかった。これは、汎用性の高いマルチモーダルAIを実現する上での主要な障壁となってきた。
モデルの学習には、一般的にReinforcement Learning from Verifiable Rewards (RLVR) やPolicy Distillationといった手法が用いられてきた。しかし、混合学習は専門家の個性が衝突する「行動の乖離」を引き起こし、個別に学習させてから後付けで知識を抽出する手法では、モデル間の微妙な差異を埋めきれず、結果として教育の質が低下することが多い。
そこで登場したのが、Co-Evolving Policy Distillation(CoPD)という新しいフレームワークだ。この手法は、専門家を孤立させて学習させるのではなく、初期段階から並列に訓練させることで相互に教え合わせる仕組みを構築した。双方向の知識蒸留をリアルタイムで行うことで、個々の推論スタイルを維持しながら全体として調和の取れた論理フレームワークを維持できる。
この共進化というアプローチにより、複雑で多面的な能力を獲得しても論理的な一貫性が保たれるようになった。実験結果によれば、この統合的な並列学習パターンは、単一の専門タスクに特化したモデルを凌駕する高い性能を示している。
この研究は、将来の基盤モデル構築における重要な転換点を示唆している。単なる大規模データセットによる学習から、専門的なモジュールが互いにメンターとして機能する学習へと進化すれば、AIは単なるツール以上の、より高度で一貫した論理的判断を下す存在へと進化を遂げるだろう。