어려울수록 강해진다: MathForge의 수학 추론 혁신
- •MathForge 프레임워크는 학습과 데이터 생성 과정에서 고난도 문제를 우선시하여 모델의 수학적 추론 능력을 획기적으로 향상한다.
- •새로운 DGPO 알고리즘은 기존 GRPO의 업데이트 불균형을 해소하여 모델이 복잡한 문제에서도 효과적으로 학습할 수 있도록 돕는다.
- •다각도 질문 재구성(MQR) 기법은 정답을 유지하면서 질문의 난이도를 체계적으로 높여 학습 효율을 극대화한다.
현재의 AI 모델들이 복잡한 수학 문제에서 고전하는 이유는 쉬운 문제 연습에 너무 많은 시간을 할애하기 때문이다. 강화 학습 기술이 도입되며 많은 발전이 있었으나, AMAP-ML 연구팀은 GRPO와 같은 대중적인 학습 알고리즘이 고난도 문제를 간과하는 경향이 있다는 사실을 발견했다. 이로 인해 모델이 중간 수준의 작업에는 능숙해지지만, 정작 고차원적인 수학적 추론 단계로는 넘어가지 못하는 한계가 발생한다. 어려운 시나리오를 마주할수록 학습 신호가 약해지는 고질적인 문제가 모델 지능의 천장을 만든 셈이다. 이를 해결하기 위해 연구진은 난이도의 '최전선'에 집중하는 이중 전략 프레임워크인 MathForge를 선보였다. 첫 번째 핵심 요소는 난이도 인식 그룹 정책 최적화(DGPO) 알고리즘이다. 이 알고리즘은 모델이 어려운 과제에서 실패했을 때 더 많은 주의를 기울이도록 학습 업데이트 가중치를 조정한다. 난이도별 학습량의 균형을 맞춤으로써, 문제가 어렵다는 이유로 학습 강도가 약해지는 현상을 방지하고 모델이 자신의 약점을 정면으로 돌파하게 만든다. 솔루션의 나머지 절반은 다각도 질문 재구성(MQR)이 담당한다. MQR은 단순히 질문의 문구를 바꾸는 수준을 넘어, 원래의 정답은 유지하되 지적으로 더 까다로운 형태로 질문을 변형하는 기술이다. 덕분에 모델은 학습 과정 내내 꾸준히 '고중량' 문제를 다루며 추론 능력을 단련할 수 있다. 광범위한 테스트 결과, 이러한 '어려울수록 좋다'는 접근 방식은 다양한 수학 벤치마크에서 성능을 크게 향상시켰으며, 더 스마트한 데이터 큐레이션을 통해 모델 지능을 확장하는 새로운 설계도를 제시했다.