AI에 시각적 추론을 더하다: 보상 모델의 진화
- •RationalRewards는 다차원 추론을 통해 시각 생성 모델의 품질을 획기적으로 개선한다.
- •새로운 '생성-비평-개선' 루프는 비용이 많이 드는 강화 학습 기반의 파인튜닝을 대체한다.
- •PARROT 프레임워크는 일반적인 선호도 데이터에서 고품질 논리 근거를 추출하여 훈련 효율을 10~20배 높인다.
현대적인 시각 AI는 고질적인 문제에 직면해 있다. 기존 보상 모델은 인간의 복잡한 선호도를 단순히 점수화하는 '편협한 계산기'에 불과했기 때문이다. 인간의 선호 뒤에 숨겨진 미묘한 논리를 무시하고 하나의 숫자 데이터로 환원하는 방식은 AI가 질 높은 결과물을 학습하는 데 한계가 있었다.
RationalRewards는 이러한 방식에서 탈피하여 연구의 새로운 장을 열었다. 이 모델은 점수를 매기기 전에 명시적인 다차원 비평을 먼저 생성한다. 이는 단순한 평가를 넘어, 무엇이 잘못되었는지 구체적인 피드백을 제공하는 편집자의 역할과 유사하다.
연구진은 보상 모델이 자신의 논리를 언어로 표현하게 함으로써 두 가지 이점을 얻었다. 첫째, 훈련 단계에서 상세한 근거가 강화 학습의 연료로 작용하여 더 정교한 시각적 결과를 유도한다. 둘째, 추론 단계에서 AI 스스로 결과물을 검토하고 비평하는 '생성-비평-개선' 루프를 통해 프롬프트를 자동 수정하는 자가 교정 기능을 구현했다.
기술적 난관은 비용이었다. 사람처럼 추론하는 능력을 구현하려면 대규모의 수작업 주석이 필요하기 때문이다. 그러나 연구진은 Preference-Anchored Rationalization(PARROT)이라는 프레임워크를 도입해 이 문제를 해결했다. PARROT은 기존의 방대한 선호도 데이터를 고품질 논리로 변환해주는 역할을 하며, 훨씬 적은 훈련 데이터만으로도 최신 모델 수준의 성능을 달성했다.
결과적으로 이 기술은 기존 시각 생성 모델의 잠재력을 완전히 깨운다. 수백 시간의 자원 집약적인 파인튜닝 없이도 능동적인 추론을 통해 더 높은 품질의 이미지를 생성할 수 있게 된 것이다. 결국 AI의 발전을 이끄는 진정한 힘은 더 많은 데이터가 아니라, 스스로 결과물을 성찰하고 개선하는 추론 능력에 있다.