강화학습 신기술 BandPO, LLM 엔트로피 붕괴 해결
- •푸단대학교 연구진이 강화학습의 안정성과 탐색 병목 현상을 해결하기 위해 BandPO를 도입했다.
- •고정된 클리핑 대신 동적 범위를 적용하여 엔트로피 붕괴를 방지하고 복잡한 수학적 추론 성능을 개선했다.
- •벤치마크 결과, BandPO는 Qwen 및 DeepSeek 모델군 전반에서 표준 GRPO보다 일관되게 우수한 성능을 보였다.
강화학습은 현대 인공지능 모델의 추론 능력을 구현하는 핵심 기법이지만, 기존의 표준적인 방식은 고질적인 결함을 안고 있다. 현재 대부분의 기술은 학습 안정성을 보장하기 위해 고정된 '클리핑(clipping)' 메커니즘을 사용한다. 그러나 연구진은 이러한 경직된 경계가 드물지만 매우 효과적인 전략을 부당하게 억제한다는 사실을 발견했다. 이는 결과적으로 모델이 다양한 해결책을 탐색하는 능력을 상실하는 엔트로피 붕괴 현상으로 이어진다.
이러한 한계를 극복하고자 푸단대학교 연구팀은 'Band-constrained Policy Optimization(BandPO)'를 새롭게 개발했다. 이 방식은 정적인 제한 대신 행동 확률에 따라 실시간으로 조절되는 동적 'Band' 연산자를 도입한 것이 특징이다. 특히 f-divergence라는 수학적 투영법을 활용해 시스템이 학습 범위를 상황에 맞춰 유연하게 확장하거나 축소할 수 있도록 설계했다. 이러한 유연성 덕분에 모델은 대규모 학습에 필수적인 안정성을 유지하면서도, 흔치 않지만 정확한 해결책인 '꼬리 전략(tail strategies)'을 효과적으로 학습한다.
실제로 복잡한 추론 과제에서 BandPO가 거둔 성과는 매우 인상적이다. Qwen 및 DeepSeek 모델을 활용한 고난도 수학 벤치마크 테스트에서 BandPO는 기존의 GRPO 프레임워크를 유의미하게 능가하는 성능을 입증했다. 탐색 과정의 기울기를 보존함으로써 모델이 사고 과정에서 건강한 다양성을 유지할 수 있게 된 것이다. 이러한 기술적 돌파구는 오픈소스 커뮤니티가 고성능 추론 모델을 정교하게 미세 조정할 수 있는 강력하고 견고한 토대를 제공한다.