새로운 AI 학습 기법, 전문가 역량을 하나로 통합하다
- •연구진이 전문가 역량을 통합하기 위한 Co-Evolving Policy Distillation(CoPD) 기법을 발표했다.
- •이 방식은 여러 전문가 모델을 병렬로 학습시켜 성능 손실과 행동 불일치 문제를 해결한다.
- •CoPD는 텍스트, 이미지, 영상 추론 작업에서 기존의 RLVR 기법보다 뛰어난 성능을 보였다.
법률 문서 분석부터 영상 해석까지 다재다능한 AI 모델을 개발하는 과정에서 연구진은 큰 난관에 봉착한다. 여러 분야의 '전문가' 역량을 합치는 과정에서 모델이 기존 지식을 잊거나 혼란을 겪는 일이 빈번하기 때문이다. 서로 다른 영역의 패턴이 충돌하며 발생하는 이러한 성능 저하 현상은 멀티모달 AI를 고도화하는 데 가장 큰 걸림돌이 되어 왔다.
기존에는 검증 가능한 보상을 사용하는 강화학습인 Reinforcement Learning from Verifiable Rewards(RLVR)나 Online Policy Distillation(OPD)이 표준으로 활용되었다. 하지만 이러한 방식들은 여러 역량을 섞을 때 모델이 어떤 전문가 성향을 따라야 할지 결정하지 못하는 행동 불일치 문제를 야기한다. 또한 전문가 모델을 각각 학습시킨 후 지식을 추출하는 방식은 모델 간의 행동 패턴 차이를 메우지 못해 학습 효과가 떨어지는 한계가 있었다.
새롭게 등장한 Co-Evolving Policy Distillation(CoPD)은 이러한 워크플로우를 근본적으로 바꾼다. 이 방식은 전문가 모델을 따로 학습시키는 대신 처음부터 병렬로 함께 성장하도록 유도한다. 각 전문가 모델은 학습 과정에서 상호 교사 역할을 하며 실시간으로 지식을 공유한다. 이를 통해 각자의 추론 스타일을 유지하면서도 다른 모델과 긴밀하게 조화를 이루게 된다.
이러한 공동 진화 방식은 모델을 단순히 결합할 때 발생하는 행동 격차를 방지한다. 다각도의 복잡한 역량을 습득하면서도 일관된 논리적 틀을 유지할 수 있기 때문이다. 실험 결과에 따르면 CoPD로 학습된 모델은 텍스트, 이미지, 영상을 아우르는 통합된 추론 능력을 보여주며, 특정 분야에만 특화된 기존 모델보다 더 우수한 성능을 입증했다.
AI 기술의 흐름을 지켜보는 학생들에게 이번 연구는 미래의 기초 모델을 만드는 방식이 바뀔 수 있음을 시사한다. 단순히 방대한 데이터를 학습시키는 것을 넘어, 특화된 모듈로부터 체계적인 '멘토링'을 받는 방식으로 발전하고 있다. 머지않아 AI 비서가 도구를 전환하는 수준을 넘어, 통합된 단일 아키텍처를 통해 복합적인 문제를 해결하는 시대를 맞이할 것이다.