PRISM 파이프라인, 멀티모달 추론 오류 해결
- •PRISM은 지도 미세 조정과 강화학습 단계 사이에 분포 정렬 단계를 도입함.
- •교사 로짓 없이 블랙박스 적대적 게임을 통해 멀티모달 모델을 정렬함.
- •Qwen3-VL 실험 결과, 복잡한 추론 벤치마크에서 4.4~6.0점의 성능 향상을 기록함.
대규모 멀티모달 모델(LMM)을 학습시킬 때 개발자들은 일반적으로 두 단계의 과정을 거친다. 먼저 엄선된 예제를 활용한 지도 미세 조정(SFT)을 수행하고, 이후 검증 가능한 보상을 통해 강화학습(RLVR)을 진행한다. 이러한 방식은 모델이 시각 정보를 이해하고 언어를 구사하게 만드는 데 효과적이지만, 분포 편향(distributional drift)이라는 고질적인 문제에 취약하다. 이는 첫 단계에서 학습한 고품질 추론 경로를 모델이 이탈하면서 발생하는 문제로, 강화학습이 진행될수록 오류가 누적되는 결과를 초래한다.
PRISM을 설계한 연구진은 이 문제가 시각과 텍스트를 동시에 다뤄야 하는 멀티모달 시스템에서 더욱 심각하게 나타난다는 점에 주목했다. 초기 지각 오류가 발생하면 이것이 연쇄적인 추론 실패로 이어지기 때문이다. 이를 해결하기 위해 연구진은 SFT와 RLVR 사이에 '분포 정렬' 단계를 새롭게 삽입했다. 이 단계에서는 모델의 정책과 특수하게 설계된 판별기 간의 경쟁을 통해 모델을 올바른 추론 경로로 유도한다.
이 과정은 모델 내부의 확률값인 교사 로짓에 접근하지 않고도 수행된다는 점이 특징이다. 해당 기술은 판별기가 지각과 추론을 위한 별도의 전문가 모듈을 갖추고 모델을 지속적으로 시험하는 구조를 취한다. 이러한 방식은 모델에 세밀한 피드백을 제공하여 높은 수준의 지도 품질을 유지하도록 돕는다.
연구진은 Qwen3-VL 모델을 통해 여러 표준 강화학습 알고리즘 환경에서 PRISM의 성능을 검증했다. 그 결과, PRISM으로 정렬된 모델은 기존 기본 모델보다 모든 복잡한 벤치마크에서 일관되게 높은 정확도를 보였다. 이러한 성과는 초기 학습 이후에도 복잡한 시스템의 신뢰성을 유지하기 위한 정교한 사후 정렬 기술이 중요해지고 있음을 시사한다.