이 기사의 핵심 내용은?

엔비디아 연구진이 다중 보상 강화학습에서 발생하는 GRPO의 정규화 붕괴 문제를 해결한 신규 알고리즘 GDPO를 발표했다. GDPO는 개별 보상을 통합하기 전 독립적으로 정규화하여 학습 안정성과 수학 및 코딩 작업 성과를 대폭 개선했다. 기존 GRPO를 대체할 수 있는 이 기술은 NeMo-RL과 TRL 등 주요 강화학습 프레임워크와 높은 호환성을 갖췄다.

NVIDIA 다중 보상 강화학습 한계 극복한 GDPO 공개

•엔비디아 연구진이 다중 보상 강화학습에서 발생하는 GRPO의 정규화 붕괴 문제를 해결한 신규 알고리즘 GDPO를 발표했다.
•GDPO는 개별 보상을 통합하기 전 독립적으로 정규화하여 학습 안정성과 수학 및 코딩 작업 성과를 대폭 개선했다.
•기존 GRPO를 대체할 수 있는 이 기술은 NeMo-RL과 TRL 등 주요 강화학습 프레임워크와 높은 호환성을 갖췄다.

•엔비디아 연구진이 다중 보상 강화학습에서 발생하는 GRPO의 정규화 붕괴 문제를 해결한 신규 알고리즘 GDPO를 발표했다.
•GDPO는 개별 보상을 통합하기 전 독립적으로 정규화하여 학습 안정성과 수학 및 코딩 작업 성과를 대폭 개선했다.
•기존 GRPO를 대체할 수 있는 이 기술은 NeMo-RL과 TRL 등 주요 강화학습 프레임워크와 높은 호환성을 갖췄다.

최근 대형언어모델(LLM)의 정렬을 위해 정확성과 간결성 등 인간의 다각적인 선호도를 반영하는 다중 보상 강화학습(RL) 파이프라인의 중요성이 커지고 있다. 그러나 기존에 널리 사용되던 그룹 상대 정책 최적화(GRPO) 알고리즘은 다중 보상 환경에서 심각한 한계를 드러냈다. 엔비디아 연구진의 분석에 따르면, 서로 다른 보상 신호들을 결합하여 정규화하는 과정에서 모든 신호가 거의 동일한 이득 값으로 수렴해버리는 이른바 '정규화 붕괴' 현상이 발생한다. 이러한 현상은 학습 신호의 변별력을 급격히 떨어뜨려 모델의 성능을 정체시키거나 학습 초기 실패를 유도하는 주된 원인이 된다.

이러한 문제를 해결하기 위해 연구진은 그룹 보상 분리 정규화 정책 최적화(GDPO)라는 혁신적인 대안을 제시했다. GDPO의 핵심은 보상을 하나로 묶기 전에 개별 보상 항목을 독립적으로 먼저 정규화하는 연산 순서의 전환에 있다. 이에 따라 각 보상 항목이 가진 고유한 상대적 차이가 보존되며, 모델은 상충하는 여러 목표 사이에서 균형을 맞출 때도 훨씬 정교하고 해상도 높은 학습 신호를 전달받게 된다. 실제로 수학적 추론, 코딩 능력, 도구 호출 등 고도의 논리적 사고를 요구하는 벤치마크 테스트에서 GDPO는 기존 GRPO를 압도하는 안정성과 성능 향상을 입증했다.

또한 GDPO는 실무 개발자들의 편의성을 고려하여 설계되었다는 점에서 큰 의의를 지닌다. 이 알고리즘은 verl, TRL, 그리고 엔비디아의 NeMo-RL과 같은 주요 강화학습 프레임워크에서 기존 GRPO를 즉시 대체할 수 있는 드롭인(drop-in) 교체 방식을 지원한다. 특히 연구팀은 별도의 복잡한 슬럼(slurm) 클러스터 환경 없이도 구동이 가능한 구현 방식을 함께 공개하여, 일반적인 하드웨어를 사용하는 연구자들도 쉽게 기술을 검증하고 실제 서비스에 적용할 수 있도록 접근성을 극대화했다.

결과적으로 GDPO의 등장은 다차원적인 인간의 가치를 인공지능에 내재화시키는 과정을 더욱 견고하게 만든 기술적 도약으로 평가받는다. 다중 보상 최적화 과정에서 발생하는 고질적인 불안정성을 해소함으로써, 향후 더욱 복잡한 업무를 수행하는 차세대 언어 모델의 성능 정렬 작업이 가속화될 전망이다. 특히 이번 연구는 AI가 인간의 미묘한 선호도 차이를 더 명확하게 이해하고 반영할 수 있는 밑거름이 될 것으로 기대된다.

최근 대형언어모델(LLM)의 정렬을 위해 정확성과 간결성 등 인간의 다각적인 선호도를 반영하는 다중 보상 강화학습(RL) 파이프라인의 중요성이 커지고 있다. 그러나 기존에 널리 사용되던 그룹 상대 정책 최적화(GRPO) 알고리즘은 다중 보상 환경에서 심각한 한계를 드러냈다. 엔비디아 연구진의 분석에 따르면, 서로 다른 보상 신호들을 결합하여 정규화하는 과정에서 모든 신호가 거의 동일한 이득 값으로 수렴해버리는 이른바 '정규화 붕괴' 현상이 발생한다. 이러한 현상은 학습 신호의 변별력을 급격히 떨어뜨려 모델의 성능을 정체시키거나 학습 초기 실패를 유도하는 주된 원인이 된다.

이러한 문제를 해결하기 위해 연구진은 그룹 보상 분리 정규화 정책 최적화(GDPO)라는 혁신적인 대안을 제시했다. GDPO의 핵심은 보상을 하나로 묶기 전에 개별 보상 항목을 독립적으로 먼저 정규화하는 연산 순서의 전환에 있다. 이에 따라 각 보상 항목이 가진 고유한 상대적 차이가 보존되며, 모델은 상충하는 여러 목표 사이에서 균형을 맞출 때도 훨씬 정교하고 해상도 높은 학습 신호를 전달받게 된다. 실제로 수학적 추론, 코딩 능력, 도구 호출 등 고도의 논리적 사고를 요구하는 벤치마크 테스트에서 GDPO는 기존 GRPO를 압도하는 안정성과 성능 향상을 입증했다.

또한 GDPO는 실무 개발자들의 편의성을 고려하여 설계되었다는 점에서 큰 의의를 지닌다. 이 알고리즘은 verl, TRL, 그리고 엔비디아의 NeMo-RL과 같은 주요 강화학습 프레임워크에서 기존 GRPO를 즉시 대체할 수 있는 드롭인(drop-in) 교체 방식을 지원한다. 특히 연구팀은 별도의 복잡한 슬럼(slurm) 클러스터 환경 없이도 구동이 가능한 구현 방식을 함께 공개하여, 일반적인 하드웨어를 사용하는 연구자들도 쉽게 기술을 검증하고 실제 서비스에 적용할 수 있도록 접근성을 극대화했다.

결과적으로 GDPO의 등장은 다차원적인 인간의 가치를 인공지능에 내재화시키는 과정을 더욱 견고하게 만든 기술적 도약으로 평가받는다. 다중 보상 최적화 과정에서 발생하는 고질적인 불안정성을 해소함으로써, 향후 더욱 복잡한 업무를 수행하는 차세대 언어 모델의 성능 정렬 작업이 가속화될 전망이다. 특히 이번 연구는 AI가 인간의 미묘한 선호도 차이를 더 명확하게 이해하고 반영할 수 있는 밑거름이 될 것으로 기대된다.