이 기사의 핵심 내용은?

NVIDIA 연구진이 프롬프트 기반 교사 가이드를 활용해 지식 증류를 최적화하는 ZPPO를 발표했다. ZPPO는 BCQ와 NCQ 프롬프트를 사용하여 소형 모델이 교사의 정답과 자신의 오답을 모두 학습하도록 돕는다. Qwen3.5 모델을 대상으로 31개 벤치마크를 테스트한 결과, ZPPO가 기존 지식 증류 및 GRPO 방식을 능가했다.

NVIDIA, 지식 증류 성능 높이는 ZPPO 공개

•NVIDIA 연구진이 프롬프트 기반 교사 가이드를 활용해 지식 증류를 최적화하는 ZPPO를 발표했다.
•ZPPO는 BCQ와 NCQ 프롬프트를 사용하여 소형 모델이 교사의 정답과 자신의 오답을 모두 학습하도록 돕는다.
•Qwen3.5 모델을 대상으로 31개 벤치마크를 테스트한 결과, ZPPO가 기존 지식 증류 및 GRPO 방식을 능가했다.

•NVIDIA 연구진이 프롬프트 기반 교사 가이드를 활용해 지식 증류를 최적화하는 ZPPO를 발표했다.
•ZPPO는 BCQ와 NCQ 프롬프트를 사용하여 소형 모델이 교사의 정답과 자신의 오답을 모두 학습하도록 돕는다.
•Qwen3.5 모델을 대상으로 31개 벤치마크를 테스트한 결과, ZPPO가 기존 지식 증류 및 GRPO 방식을 능가했다.

NVIDIA 연구진은 6월 16일 소형 언어 모델의 지식 증류(Knowledge distillation)를 개선하기 위해 고안된 사후 학습 방법인 근접 정책 최적화 영역(Zone of Proximal Policy Optimization, ZPPO)을 공개했다. 일반적으로 지식 증류는 작은 학생 모델이 거대 교사 모델의 로짓을 모방하도록 학습시키는데, 이 방식은 학습 데이터 외의 문제에서 일반화 성능이 저하되는 경우가 많다. 기존 강화학습은 학생이 직접 생성한 데이터를 활용하지만, 난이도가 높은 문제에서는 모든 시도가 실패하여 유용한 데이터를 버리거나 정책 기울기(Policy gradient)의 불안정성을 초래하는 문제가 있었다.

ZPPO는 이러한 교사 모델의 가이드를 정책 기울기에 직접 주입하는 대신 프롬프트에 유지함으로써 문제를 해결한다. 복잡한 질의에 대해 이 방식은 두 가지 유형의 프롬프트를 생성한다. 이진 후보 포함 질의(BCQ)는 학생 모델이 교사의 정답과 학생의 오답 중 하나를 선택하도록 유도하며, 부정 후보 포함 질의(NCQ)는 실패한 여러 사례를 하나의 프롬프트로 묶어 반복되는 오류 패턴을 강조한다. 이러한 프롬프트는 '프롬프트 리플레이 버퍼'에 저장되어 학생 모델이 0.5 이상의 평균 정확도를 달성하거나 버퍼가 한계치에 도달할 때까지 난이도 높은 질문들을 지속적으로 학습한다.

연구진은 0.8B부터 9B 파라미터까지 총 4개 규모의 학생 모델을 27B 파라미터 교사 모델과 함께 구성하여 Qwen3.5 제품군에서 ZPPO를 평가했다. 이번 테스트는 16개의 시각-언어 모델(Vision-language models), 10개의 언어 모델, 5개의 비디오 모델을 포함한 31개 벤치마크를 대상으로 진행됐다. 그 결과 ZPPO는 기존의 온-정책 및 오프-정책 증류 기술은 물론 GRPO보다 우수한 성능을 입증했으며, 특히 모델 규모가 작을수록 향상 폭이 두드러졌다. 결과적으로 교사의 정답 경로와 학생의 실패 사례를 프롬프트 맥락 내에서 결합함으로써, 정책 업데이트의 일관성을 유지하면서도 어려운 문제에 대한 유효한 학습 신호를 제공하는 데 성공했다.

NVIDIA 연구진은 6월 16일 소형 언어 모델의 지식 증류(Knowledge distillation)를 개선하기 위해 고안된 사후 학습 방법인 근접 정책 최적화 영역(Zone of Proximal Policy Optimization, ZPPO)을 공개했다. 일반적으로 지식 증류는 작은 학생 모델이 거대 교사 모델의 로짓을 모방하도록 학습시키는데, 이 방식은 학습 데이터 외의 문제에서 일반화 성능이 저하되는 경우가 많다. 기존 강화학습은 학생이 직접 생성한 데이터를 활용하지만, 난이도가 높은 문제에서는 모든 시도가 실패하여 유용한 데이터를 버리거나 정책 기울기(Policy gradient)의 불안정성을 초래하는 문제가 있었다.

ZPPO는 이러한 교사 모델의 가이드를 정책 기울기에 직접 주입하는 대신 프롬프트에 유지함으로써 문제를 해결한다. 복잡한 질의에 대해 이 방식은 두 가지 유형의 프롬프트를 생성한다. 이진 후보 포함 질의(BCQ)는 학생 모델이 교사의 정답과 학생의 오답 중 하나를 선택하도록 유도하며, 부정 후보 포함 질의(NCQ)는 실패한 여러 사례를 하나의 프롬프트로 묶어 반복되는 오류 패턴을 강조한다. 이러한 프롬프트는 '프롬프트 리플레이 버퍼'에 저장되어 학생 모델이 0.5 이상의 평균 정확도를 달성하거나 버퍼가 한계치에 도달할 때까지 난이도 높은 질문들을 지속적으로 학습한다.

연구진은 0.8B부터 9B 파라미터까지 총 4개 규모의 학생 모델을 27B 파라미터 교사 모델과 함께 구성하여 Qwen3.5 제품군에서 ZPPO를 평가했다. 이번 테스트는 16개의 시각-언어 모델(Vision-language models), 10개의 언어 모델, 5개의 비디오 모델을 포함한 31개 벤치마크를 대상으로 진행됐다. 그 결과 ZPPO는 기존의 온-정책 및 오프-정책 증류 기술은 물론 GRPO보다 우수한 성능을 입증했으며, 특히 모델 규모가 작을수록 향상 폭이 두드러졌다. 결과적으로 교사의 정답 경로와 학생의 실패 사례를 프롬프트 맥락 내에서 결합함으로써, 정책 업데이트의 일관성을 유지하면서도 어려운 문제에 대한 유효한 학습 신호를 제공하는 데 성공했다.