AI 지식 증류의 비밀을 풀다
- •연구진이 거대 언어 모델에서 효과적인 On-Policy Distillation을 위한 두 가지 핵심 요건을 규명했다.
- •성공적인 학습은 교사와 학생 모델 간의 호환 가능한 '사고 패턴'과 새로운 능력에 대한 접근성에 달려 있다.
- •실패하는 증류 과정을 복구하기 위해 '오프 폴리시 콜드 스타트'와 같은 새로운 회복 전략이 제시되었다.
인공지능 분야의 '지식 증류'는 마치 고도의 학문적 도제 수업과 유사하다. 이는 주니어 학생, 즉 작고 효율적인 모델이 노련한 교수인 거대 모델의 추론 능력을 복제하려는 시도를 의미한다. 특히 대규모 언어 모델(LLM)이 빠르게 발전하는 환경에서, 이러한 On-Policy Distillation 방식은 개인 기기에서 구동 가능한 강력한 AI 시스템을 구축하는 데 필수적인 방법론으로 자리 잡았다.
최근 칭화대학교 연구팀은 이 도제 수업 과정이 생각보다 훨씬 복잡하다는 사실을 밝혀냈다. 연구 결과에 따르면, 효과적인 학습은 상호 호환되는 '사고 패턴'과 진정으로 새로운 지식의 도입이라는 두 가지 양보할 수 없는 토대 위에 성립한다. 학생 모델과 교사 모델이 개념적으로 정렬되지 않아 일종의 '같은 언어'를 구사하지 못한다면, 교사 모델의 성능이 아무리 뛰어나도 증류 과정은 실패할 수밖에 없다.
또한 연구는 단순히 구조적인 일치를 넘어 '새로움'의 필요성이라는 결정적인 측면을 강조한다. 교사를 단순히 모방하는 것만으로는 진정한 인지적 성장을 기대할 수 없기 때문이다. 의미 있는 학습이 이루어지려면 교사는 학생이 초기 학습 단계에서 접하지 못한 새로운 통찰과 능력을 제공해야 한다. 이러한 의도적인 새로운 데이터 주입이 없다면, 학생 모델은 정체된 고리에 빠져 문제를 해결하는 법을 배우기보다 피상적인 패턴을 암기하는 데 그치고 만다.
연구진은 복잡한 학습 과정에서 발생하는 구체적인 메커니즘을 심층적으로 분석했다. 성공적인 증류는 학생 모델이 새로운 가능성을 탐색하는 상태에서 토큰 단위로 점진적인 정렬이 이루어질 때 결정된다. 학생이 능동적인 '온 폴리시' 탐색 과정에서 마주하는 이러한 고확률 토큰들은 지능 전이를 위한 핵심적인 닻 역할을 수행한다. 결과적으로 학생 모델은 이러한 특정 데이터 포인트에 집중함으로써 학습 진척의 대부분을 공고히 한다.
개발자들에게 가장 유용한 점은 연구팀이 제안한 실용적인 복구 전략이다. 모델의 학습 과정이 한계에 부딪힐 경우, '오프 폴리시 콜드 스타트'나 교사 정렬 프롬프트 선택법을 활용하면 학습을 다시 정상 궤도로 되돌릴 수 있다. 이는 증류 과정의 실패가 끝이 아니라, 적절한 방법론으로 충분히 극복 가능한 기술적 난관임을 시사한다. 미래의 더 길고 복잡한 AI 과제를 대비하기 위해, 이러한 기본 역학을 이해하는 것은 차세대 효율적이고 유능한 AI 에이전트를 구축하는 데 핵심적인 밑거름이 된다.