바이트댄스, AI 협업 학습 효율 높이는 신규 프레임워크 공개
- •서로 다른 인공지능 에이전트 간의 협업 학습을 지원하는 HACRL 공개
- •데이터 공유 알고리즘 HACPO를 통해 학습 비용 50% 절감 성공
- •추론 시에는 각 모델이 독립적으로 작동하여 운영 효율성 극대화
바이트댄스(ByteDance) 연구진이 서로 다른 유형의 AI 모델들이 서로의 지식을 학습할 수 있도록 돕는 '이종 에이전트 협업 강화학습(HACRL)' 프레임워크를 발표했다. 기존에는 여러 AI 에이전트를 동시에 학습시킬 때 각 모델이 생성한 경험 데이터인 롤아웃(Rollout)을 공유하지 못하고 개별적으로 작동하여 학습 효율이 낮다는 한계가 있었다. 하지만 HACRL은 검증된 학습 데이터를 서로 다른 구조나 능력을 갖춘 에이전트끼리 공유할 수 있게 함으로써 전체적인 성능을 동반 향상시킨다.
연구팀은 이러한 협업을 효과적으로 관리하기 위해 HACPO라는 전용 알고리즘을 제안했다. 특히 한 모델에게 유용한 데이터가 다른 모델에게는 혼란을 줄 수 있는 '분포 변화(Distribution Shift)' 문제를 해결하는 데 집중했다. HACPO는 네 가지 맞춤형 메커니즘을 활용하여 공유되는 지식이 모든 참여 모델에게 수학적으로 유효하고 도움이 되도록 보장한다. 이는 단순히 거대 모델이 소형 모델에게 지식을 전수하는 기존의 스승-제자 모델을 넘어선 양방향 학습 방식이라는 점에서 큰 의의가 있다.
실제로 다양한 추론 벤치마크 테스트 결과, HACPO는 기존 방식 대비 성능을 평균 3.3% 향상시키는 동시에 데이터 수집 비용은 절반 수준으로 낮췄다. 무엇보다 큰 장점은 모델들이 학습 과정에서는 긴밀히 협력하지만 실제 서비스에 적용되는 추론 단계에서는 각 모델이 완전히 독립적으로 작동한다는 점이다. 이에 따라 개발자들은 복잡한 배포 과정 없이도 대규모 협업 학습의 이점을 누리며 실제 애플리케이션에 AI를 효율적으로 적용할 수 있게 됐다.