이 기사의 핵심 내용은?

Flow-OPD 프레임워크는 플로우 매칭 이미지 모델의 보상 희소성과 그래디언트 간섭 문제 해결 GRPO 교사 모델 특화와 매니폴드 앵커 정규화를 결합한 2단계 정렬 방식 적용 Stable Diffusion 3.5 Medium 벤치마크 기준, GenEval 점수 63에서 92로 상승

Flow-OPD, 플로우 매칭 모델을 위한 2단계 정렬 프레임워크 공개

•Flow-OPD 프레임워크는 플로우 매칭 이미지 모델의 보상 희소성과 그래디언트 간섭 문제 해결
•GRPO 교사 모델 특화와 매니폴드 앵커 정규화를 결합한 2단계 정렬 방식 적용
•Stable Diffusion 3.5 Medium 벤치마크 기준, GenEval 점수 63에서 92로 상승

Flow-OPD는 플로우 매칭(Flow Matching) 기반 텍스트-이미지 생성 모델을 위한 새로운 사후 학습 프레임워크로, 보상 희소성과 그래디언트 간섭 문제를 해결하기 위해 설계되었다. 2026년 5월 8일 발표된 이 시스템은 2단계 전략을 통해 멀티태스크 정렬 성능을 개선한다.

우선 GRPO(Group Relative Policy Optimization)를 활용해 특화된 교사 모델을 구축한다. 이후 온폴리시 샘플링과 밀도 높은 궤적 수준의 감독 학습을 거쳐 이를 단일 학생 정책으로 통합한다. 특히 미적 품질 저하를 방지하기 위해, 고품질 데이터 매니폴드에 생성을 고정하는 매니폴드 앵커 정규화(Manifold Anchor Regularization) 기법을 도입했다.

Stable Diffusion 3.5 Medium 모델 대상 평가 결과, 해당 프레임워크는 GenEval 점수를 기존 63에서 92로 끌어올렸으며, OCR 정확도 또한 59에서 94로 향상시켰다. 이는 일반적인 GRPO 방식 대비 약 10점 이상의 성능 개선을 보여주면서도 원본 이미지의 충실도를 안정적으로 유지한 결과다.

Flow-OPD는 플로우 매칭(Flow Matching) 기반 텍스트-이미지 생성 모델을 위한 새로운 사후 학습 프레임워크로, 보상 희소성과 그래디언트 간섭 문제를 해결하기 위해 설계되었다. 2026년 5월 8일 발표된 이 시스템은 2단계 전략을 통해 멀티태스크 정렬 성능을 개선한다.

우선 GRPO(Group Relative Policy Optimization)를 활용해 특화된 교사 모델을 구축한다. 이후 온폴리시 샘플링과 밀도 높은 궤적 수준의 감독 학습을 거쳐 이를 단일 학생 정책으로 통합한다. 특히 미적 품질 저하를 방지하기 위해, 고품질 데이터 매니폴드에 생성을 고정하는 매니폴드 앵커 정규화(Manifold Anchor Regularization) 기법을 도입했다.

Stable Diffusion 3.5 Medium 모델 대상 평가 결과, 해당 프레임워크는 GenEval 점수를 기존 63에서 92로 끌어올렸으며, OCR 정확도 또한 59에서 94로 향상시켰다. 이는 일반적인 GRPO 방식 대비 약 10점 이상의 성능 개선을 보여주면서도 원본 이미지의 충실도를 안정적으로 유지한 결과다.