AI報酬の競合を解消する新フレームワーク「MARBLE」
- •MARBLEは手動の重み付けではなく、勾配空間最適化を用いて競合するAI報酬を自動調整する。
- •本フレームワークは97%の学習効率を維持しつつ、5つの異なる画像品質報酬を同時に改善する。
- •研究者は加重和のボトルネックを解消し、微調整中のモデルにおける報酬基準の競合を防止した。
拡散モデルの急速な進歩は、AIモデルを人間の好みに合わせる精緻な調整技術に支えられている。これはRLHF(人間からのフィードバックによる強化学習)として知られるプロセスであり、AIが単に画像を作成するだけでなく、ユーザーが好む美しさや正確さ、安全性を備えるよう導く役割を果たす。しかし、システムへの要求が高まるにつれ、相反する複数の目的を同時に最適化するという工学的な難題に直面している。
従来の開発手法では、報酬の「加重和」を用いるのが一般的であった。例えば、写真のようなリアリズム、構図の良さ、テキストの正確さを全て満たす画像を生成させる場合、それぞれに重みを割り当てて一つのスコアに統合していたのだ。しかし、この手法には欠点がある。ある報酬基準にとって完璧なデータが、別の基準にとっては役に立たないことが多く、複数の報酬を混ぜ合わせると信号が希釈され、結果的にどの指標も中途半端なモデルしか生まれないという問題が生じていた。
そこで提案されたのが「MARBLE(Multi-Aspect Reward BaLancE)」という新たなフレームワークである。研究チームは報酬を単純な足し算で統合するのではなく、勾配空間最適化という手法を採用した。これは各報酬に対して独立した利得推定値を維持するアプローチで、モデルのどの行動がどの評価指標に基づいているかを明示的に把握できるようにするものだ。この手法により、プロセスは平均化ではなく純粋な数学的最適化へと昇華された。
このブレイクスルーの中核を成すのが「二次計画法(Quadratic Programming)」の活用である。これにより、モデルの更新方向を数学的に解決し、全ての報酬次元を同時に最適化する一貫した方向性を見出すことが可能となった。その結果、従来必要とされていた多段階のカリキュラム学習や、面倒な重みの手動調整から解放され、より効率的で合理的な学習プロセスが実現した。
性能向上は顕著である。「SD3.5 Medium」アーキテクチャでの検証では、5つの報酬次元全てを同時並行で改善することに成功した。特筆すべきは、学習バッチの最大80%で発生していた、報酬次元同士が相反する「負の勾配」問題の解決である。計算上の複雑さは増したものの、標準的な単一報酬モデルと比べて97%の速度を維持しており、高品質なAI調整に膨大な計算コストの犠牲は不要であることを証明している。