Flow-OPDがフローマッチング向け二段階アライメントを提案
HuggingFace
2026年5月12日 (火)
- •Flow-OPDフレームワークがフローマッチング画像モデルの報酬の疎(sparsity)や勾配干渉の問題を解決
- •二段階アライメントによりGRPOによる教師モデルの特化とManifold Anchor Regularizationを統合
- •Stable Diffusion 3.5 MediumのベンチマークでGenEvalスコアが63から92へ向上
Flow-OPDは、フローマッチングを用いたテキスト・トゥ・イメージ(文章から画像を生成する技術)モデル向けの新しいポストトレーニングフレームワークである。2026年5月8日に発表されたこのシステムは、報酬が疎であることや勾配干渉といった課題に対処し、二段階の戦略を通じてマルチタスクのアライメントを改善する。
この手法では、まずGRPO(Group Relative Policy Optimization)を用いて特化型教師モデルを育成する。その後、オンポリシーサンプリングと詳細な軌道レベルの教師データを通じて、単一の学生ポリシーへと統合する。さらに、画像品質の劣化を防ぐため、高品質なデータマニフォールドに生成を固定する手法であるManifold Anchor Regularizationを導入した。
Stable Diffusion 3.5 Mediumを用いた評価において、同フレームワークはGenEvalスコアを63から92へ、OCR精度を59から94へと向上させた。これらの結果は、画像忠実度を維持しつつ、通常のGRPOと比較して約10ポイントの性能向上を示している。