이 기사의 핵심 내용은?

FIPO는 다음 추론 경로에 미치는 영향력을 바탕으로 토큰별 가중치를 부여해 '신용 할당' 문제를 개선한다. Qwen2.5-32B 모델 적용 시 사고의 사슬 길이가 4,000개에서 10,000개 이상의 토큰으로 확장되었다. AIME 2024에서 58%의 정확도를 기록하며 o1-mini 등 주요 경쟁 모델을 능가하는 성능을 입증했다.

FIPO 알고리즘, LLM의 수학적 추론 능력 대폭 강화

•FIPO는 다음 추론 경로에 미치는 영향력을 바탕으로 토큰별 가중치를 부여해 '신용 할당' 문제를 개선한다.
•Qwen2.5-32B 모델 적용 시 사고의 사슬 길이가 4,000개에서 10,000개 이상의 토큰으로 확장되었다.
•AIME 2024에서 58%의 정확도를 기록하며 o1-mini 등 주요 경쟁 모델을 능가하는 성능을 입증했다.

언어 모델을 위한 기존의 강화 학습 방식은 이른바 '신용 할당(credit assignment)' 문제로 어려움을 겪어 왔다. 이는 긴 설명 과정 중 어떤 특정 단어나 단계가 실제로 정답 도출에 기여했는지를 판별하는 대단히 까다로운 작업이다. 기존 시스템은 대개 전체 추론 시퀀스를 하나의 단위로 취급하여, 논리적 중요도와 상관없이 모든 단어에 동일한 보상을 부여한다는 한계가 있었다.

연구진은 이러한 문제를 해결하기 위해 모델 출력 내에서 '핵심적인 논리적 중점'을 식별하는 FIPO(Future-KL Influenced Policy Optimization)를 도입했다. FIPO는 모든 토큰이 이후의 추론 경로에 미치는 실시간 영향력을 계산함으로써, 영리한 논리적 전개는 정밀하게 강화하고 반복적인 불필요한 문구는 억제한다. 그 결과, 최종 결과뿐만 아니라 개별적인 생각의 가치를 모델이 스스로 이해할 수 있도록 돕는 세밀한 피드백 시스템이 구축되었다.

실제로 Qwen2.5-32B 모델에 FIPO를 적용하자, 문제 해결을 위한 단계별 내부 추론 과정인 '사고의 사슬'의 평균 길이가 기존 4,000개에서 10,000개 이상의 토큰으로 크게 확장되었다. 또한 난이도가 높은 AIME 2024 수학 벤치마크에서 최고 58%의 정확도를 달성했다. 특히 이는 비슷한 규모의 o1-mini나 DeepSeek-R1-Zero-Math-32B와 같은 전문 경쟁 모델의 성능을 상회하는 수준이라는 점에서 더욱 주목할 만하다.

언어 모델을 위한 기존의 강화 학습 방식은 이른바 '신용 할당(credit assignment)' 문제로 어려움을 겪어 왔다. 이는 긴 설명 과정 중 어떤 특정 단어나 단계가 실제로 정답 도출에 기여했는지를 판별하는 대단히 까다로운 작업이다. 기존 시스템은 대개 전체 추론 시퀀스를 하나의 단위로 취급하여, 논리적 중요도와 상관없이 모든 단어에 동일한 보상을 부여한다는 한계가 있었다.

연구진은 이러한 문제를 해결하기 위해 모델 출력 내에서 '핵심적인 논리적 중점'을 식별하는 FIPO(Future-KL Influenced Policy Optimization)를 도입했다. FIPO는 모든 토큰이 이후의 추론 경로에 미치는 실시간 영향력을 계산함으로써, 영리한 논리적 전개는 정밀하게 강화하고 반복적인 불필요한 문구는 억제한다. 그 결과, 최종 결과뿐만 아니라 개별적인 생각의 가치를 모델이 스스로 이해할 수 있도록 돕는 세밀한 피드백 시스템이 구축되었다.

실제로 Qwen2.5-32B 모델에 FIPO를 적용하자, 문제 해결을 위한 단계별 내부 추론 과정인 '사고의 사슬'의 평균 길이가 기존 4,000개에서 10,000개 이상의 토큰으로 크게 확장되었다. 또한 난이도가 높은 AIME 2024 수학 벤치마크에서 최고 58%의 정확도를 달성했다. 특히 이는 비슷한 규모의 o1-mini나 DeepSeek-R1-Zero-Math-32B와 같은 전문 경쟁 모델의 성능을 상회하는 수준이라는 점에서 더욱 주목할 만하다.