AI 비교하기AI 교차검증AI 최신정보AI 커뮤니티
お知らせAIBは6月末のベータ版公開に向けて準備中!🚀さまざまなAIを比べ、体験を共有しながら、みんなで学べる場所を目指しています。公開まで、もう少しお待ちください!☺️
私たちのビジョン利用規約個人情報保護方針FAQお問い合わせ

Flow-OPDがフローマッチング向け二段階アライメントを提案

Flow-OPDがフローマッチング向け二段階アライメントを提案

HuggingFace
2026年5月12日 (火)
  • •Flow-OPDフレームワークがフローマッチング画像モデルの報酬の疎(sparsity)や勾配干渉の問題を解決
  • •二段階アライメントによりGRPOによる教師モデルの特化とManifold Anchor Regularizationを統合
  • •Stable Diffusion 3.5 MediumのベンチマークでGenEvalスコアが63から92へ向上
  • •Flow-OPDフレームワークがフローマッチング画像モデルの報酬の疎(sparsity)や勾配干渉の問題を解決
  • •二段階アライメントによりGRPOによる教師モデルの特化とManifold Anchor Regularizationを統合
  • •Stable Diffusion 3.5 MediumのベンチマークでGenEvalスコアが63から92へ向上

Flow-OPDは、フローマッチングを用いたテキスト・トゥ・イメージ(文章から画像を生成する技術)モデル向けの新しいポストトレーニングフレームワークである。2026年5月8日に発表されたこのシステムは、報酬が疎であることや勾配干渉といった課題に対処し、二段階の戦略を通じてマルチタスクのアライメントを改善する。

この手法では、まずGRPO(Group Relative Policy Optimization)を用いて特化型教師モデルを育成する。その後、オンポリシーサンプリングと詳細な軌道レベルの教師データを通じて、単一の学生ポリシーへと統合する。さらに、画像品質の劣化を防ぐため、高品質なデータマニフォールドに生成を固定する手法であるManifold Anchor Regularizationを導入した。

Stable Diffusion 3.5 Mediumを用いた評価において、同フレームワークはGenEvalスコアを63から92へ、OCR精度を59から94へと向上させた。これらの結果は、画像忠実度を維持しつつ、通常のGRPOと比較して約10ポイントの性能向上を示している。

Flow-OPDは、フローマッチングを用いたテキスト・トゥ・イメージ(文章から画像を生成する技術)モデル向けの新しいポストトレーニングフレームワークである。2026年5月8日に発表されたこのシステムは、報酬が疎であることや勾配干渉といった課題に対処し、二段階の戦略を通じてマルチタスクのアライメントを改善する。

この手法では、まずGRPO(Group Relative Policy Optimization)を用いて特化型教師モデルを育成する。その後、オンポリシーサンプリングと詳細な軌道レベルの教師データを通じて、単一の学生ポリシーへと統合する。さらに、画像品質の劣化を防ぐため、高品質なデータマニフォールドに生成を固定する手法であるManifold Anchor Regularizationを導入した。

Stable Diffusion 3.5 Mediumを用いた評価において、同フレームワークはGenEvalスコアを63から92へ、OCR精度を59から94へと向上させた。これらの結果は、画像忠実度を維持しつつ、通常のGRPOと比較して約10ポイントの性能向上を示している。

原文(英語)を読む·2026年5月12日
#flow matching#on policy distillation#text to image#grpo#stable diffusion 3 5