AI의 '난제 외면' 해결하는 F-GRPO 기술 공개
- •F-GRPO는 난이도 인지 스케일링을 도입해 AI가 희귀한 정답을 무시하는 현상을 방지한다.
- •Qwen2.5-7B 모델의 복잡한 추론 성능이 추가 연산 비용 없이 대폭 향상됐다.
- •고난도 프롬프트에 우선순위를 두는 방식으로 pass@256 점수를 64.1에서 70.3으로 끌어올렸다.
현대적인 AI 추론 학습은 마치 건조더미에서 바늘을 찾는 과정과도 같다. 현재 주로 사용되는 검증 가능한 보상 기반 강화 학습(RLVR) 방식은 그룹 샘플링을 통해 정답에 도달하는 경로를 추정한다. 그러나 컴퓨터의 메모리 한계로 인해 이 샘플링 그룹의 크기가 충분하지 않은 경우가 많으며, 결국 희귀하지만 정확한 솔루션을 포착하는 데 실패하곤 한다. 이로 인해 AI는 쉬운 정답만 과도하게 학습하고 정교한 추론에 필수적인 복잡한 답안은 완전히 잊어버리는 이른바 '게으른 AI'가 되어버리는 문제가 발생한다.
연구진은 이를 해결하기 위해 '난이도 인지' 스케일링 논리를 적용한 새로운 방법인 F-GRPO를 도입했다. 분류하기 어려운 데이터에 가중치를 두는 수학적 도구인 Focal loss에서 영감을 얻은 이 기술은, 이미 모델이 완벽하게 해결할 수 있는 쉬운 프롬프트의 비중을 낮게 평가한다. 대신 모델이 그동안 무시했던 희귀하고 올바른 궤적을 적극적으로 찾아내도록 유도한다. 이에 따라 모델의 수학적 가중치는 단순히 가장 가능성 높은 답을 반복하는 수준을 넘어, 다양하고 깊이 있는 해결책을 발견하는 방향으로 전환된다.
특히 이번 연구 결과는 별도의 추가 연산 비용이 발생하지 않는다는 점에서 매우 인상적이다. 실제 Qwen2.5-7B 모델을 대상으로 테스트한 결과, F-GRPO는 여러 추론 벤치마크에서 성능을 크게 개선했다. 무엇보다 정해진 시도 횟수 내에 정답을 찾을 확률을 측정하는 pass@k 지표가 눈에 띄게 상승했다. 또한 이 방식은 AI가 보상을 계산하는 방식 자체가 아니라 보상에 부여하는 가치만을 조정하기 때문에, 기존 GRPO나 DAPO 파이프라인에 도입할 때 추가적인 하드웨어나 처리 시간이 전혀 필요하지 않다.