이 기사의 핵심 내용은?

연구진이 GRPO 등 그룹 기반 강화 학습 방식에서 치명적인 수학적 편향을 규명했다. 현재의 평가 시스템은 어려운 프롬프트는 과소평가하고 쉬운 작업은 과대평가하는 경향을 보였다. 새롭게 제안된 HA-DW 기법은 이러한 편향을 수정해 주요 수학 벤치마크 성능을 크게 향상시켰다.

AI 추론 모델 훈련의 함정, ‘GRPO’ 편향성 발견

•연구진이 GRPO 등 그룹 기반 강화 학습 방식에서 치명적인 수학적 편향을 규명했다.
•현재의 평가 시스템은 어려운 프롬프트는 과소평가하고 쉬운 작업은 과대평가하는 경향을 보였다.
•새롭게 제안된 HA-DW 기법은 이러한 편향을 수정해 주요 수학 벤치마크 성능을 크게 향상시켰다.

대규모 언어 모델 (LLM)의 사후 학습 과정은 대개 복잡한 수학이나 논리적 난제를 해결하는 능력을 키우는 데 집중한다. 이때 별도의 비용이 드는 '비평가' 모델 없이도 효율적으로 학습을 돕는 '그룹 상대적 어드밴티지 추정' 방식이 널리 쓰인다. 하지만 최신 연구에 따르면 이 효율적인 지름길에는 모델의 성장을 방해하는 수학적 편향이 존재했다. 문제의 핵심은 AI가 문제의 난이도를 제대로 인지하지 못한다는 점이다. GRPO와 같은 기존 시스템은 프롬프트의 복잡성을 세밀하게 구분하지 못한다. 어려운 문제를 해결하며 얻은 진전은 과소평가하는 반면, 쉬운 문제에는 너무 관대한 보상을 준다. 이는 마치 학생이 어려운 수학 문제의 풀이 과정에 대해서는 정당한 보상을 받지 못하고, 단순한 산수를 맞힐 때마다 '참가상'을 받는 것과 비슷하다. 결국 AI는 도전적인 해결책을 탐구하기보다 이미 아는 단순한 패턴에만 의존하게 된다. 연구진은 이를 해결하기 위해 '과거 이력 기반 적응형 난이도 가중치(HA-DW)'를 도입했다. 과거 성과의 이동 평균을 '난이도 앵커'로 삼아 보상 체계를 실시간으로 재설정하는 방식이다. 실제 작업의 난이도에 맞춰 가중치를 정교하게 조정하자 학습 과정은 훨씬 견고해졌다. 5개 주요 수학 벤치마크에서 확인된 일관된 성능 향상은, 이러한 숨겨진 편향을 제거하는 것이 차세대 AI 에이전트 구현의 핵심 열쇠임을 보여준다.