PRISMが解決するマルチモーダルAIの推論のズレ
- •PRISMは教師あり微調整と強化学習の間に分布調整フェーズを導入する。
- •ブラックボックス型の対戦ゲームを用いて、教師ロジットなしでマルチモーダルモデルの整合性を確保する。
- •Qwen3-VLでの実験において、複雑な推論ベンチマークで4.4から6.0ポイントの性能向上を達成。
大規模マルチモーダルモデル(LMM)の構築において、開発者は標準的な2段階の工程を踏むのが一般的だ。まず、厳選されたデータを用いた教師あり微調整(SFT)を行い、その後、検証可能な報酬を用いた強化学習(RLVR)を適用する。この手法はモデルに言語と視覚の習得を促すうえで極めて有効であるものの、多くの現場で「分布のズレ」という厄介な問題が潜んでいる。
このズレは、モデルが学習初期に獲得した理想的な推論経路から徐々に逸脱することで発生する。強化学習のプロセスが進むほどに小さな誤差が積み重なり、最終的にはモデルの知的能力を大きく損なう結果となるのだ。特にマルチモーダルモデルの場合、視覚情報とテキストによる論理的思考を同時に扱う必要があるため、この課題は一層深刻化する。
初期段階での知覚エラーが致命的な推論の失敗を誘発することを踏まえ、研究チームはPRISMという新たな技術的フレームワークを考案した。彼らはSFTとRLVRの間に、独自の「分布調整」フェーズを設けるという手法を採用した。このフェーズでは、モデルのポリシーとMixture-of-Experts(MoE)を用いた判別器が競い合うゲームのような環境が構築される。
この仕組みを通じて、システムはモデルの推論過程を正しい方向へと自動的に修正する。特筆すべきは、モデル内部の確率スコアである教師ロジットを参照する必要がない点だ。この手法はオンポリシー蒸留と呼ばれ、知覚と推論のそれぞれに特化した専門家モデルを持つ判別器が、モデルに対してきめ細やかなフィードバックを提供し続けることで実現している。
研究チームはQwen3-VLを対象に複数の強化学習アルゴリズムを用いて検証を行い、PRISMによる調整モデルがベースラインを安定して上回ることを証明した。複雑な推論ベンチマークにおいても、明確な精度の向上が確認されている。今回の成果は、AI開発が単なる初期学習の段階を超え、複雑なシステムをいかにして長期間、信頼性高く維持するかという「ポスト調整」の領域へとシフトしていることを示している。