FusionRoute, 토큰 단위 협업으로 LLM 한계 돌파
- •FusionRoute는 경량 라우터를 통해 각 토큰에 최적화된 전문가 모델을 선택하고 추가 로짓을 결합하는 새로운 협업 프레임워크다.
- •이론적 분석을 통해 전문가 선택과 학습 가능한 생성기 결합이 기존 전문가 전용 라우팅의 근본적인 한계를 극복함을 입증했다.
- •Llama-3 및 Gemma-2 기반 벤치마크 결과, FusionRoute는 코딩과 추론 작업에서 모델 병합이나 미세 조정보다 뛰어난 성능을 보였다.
거대언어모델(LLM)의 효율성과 성능 사이의 절충안을 찾기 위한 연구가 지속되는 가운데, 기존의 시퀀스 단위 라우팅 기술을 혁신적으로 개선한 토큰 단위의 새로운 협업 전략인 'FusionRoute'가 공개되었다. 이 프레임워크는 모든 작업을 단일 범용 모델에 의존하는 전통적인 방식에서 벗어나, 경량화된 라우터를 중심으로 각 디코딩 단계마다 실시간으로 최적의 협업 모델을 구성한다. 특히 라우터는 매 순간 가장 적합한 도메인 전문가 모델을 선택함과 동시에, 전문가의 출력값에 더해질 보완적인 로짓(logit)을 생성하는 이중 과업을 수행한다. 이러한 정교한 보완 메커니즘은 토큰 분포를 세밀하게 정제하여 모델 앙상블의 표현력을 극대화하며 시스템의 전반적인 지능을 향상시킨다.
연구진은 전문가 전용 라우팅 방식이 전역적인 데이터 커버리지 가정에 묶여 성능의 한계가 발생한다는 점을 이론적으로 분석하여 증명하였다. 이에 따라 FusionRoute는 학습 가능한 생성기(Trainable Generator)를 도입하여, 특정 조건 하에서 최적의 가치 함수를 완벽하게 복구할 수 있는 기술적 토대를 마련했다. 또한 이러한 접근 방식은 개별 전문가 모델이 가진 고유한 지식을 보존하면서도, 상호 보완적인 정보를 결합하여 출력의 정확도를 높이는 결과를 낳았다. 다만 단순한 모델 조합이 아니라 수학적인 검증을 거친 로짓 결합 방식을 사용했기에, 기존의 전문가 혼합(MoE) 모델이 가진 데이터 편향성 문제나 선택의 불확실성을 효과적으로 해결할 수 있었다.
실제로 Meta의 Llama-3와 Google의 Gemma-2를 기반으로 진행된 다양한 벤치마크 평가에서 FusionRoute는 수학 및 코딩 작업과 같이 높은 논리력이 요구되는 과업에서 압도적인 성과를 거두었다. 한편 이 프레임워크는 기존의 모델 병합(Model Merging)이나 복잡한 미세 조정(Fine-tuning) 기법보다 뛰어난 성능을 입증했으며, 연산 비용이 높은 시퀀스 단위의 협업 방식보다 높은 효율성을 보여주었다. 특히 고성능의 대규모 모델에 의존하지 않고도 여러 특화 모델의 시너지를 극대화함으로써 경쟁력 있는 결과를 도출했다는 점이 주목할 만하다. 결과적으로 FusionRoute는 지능형 라우팅 기술의 새로운 지평을 열었으며 향후 멀티 모델 생태계의 핵심 기술로 자리 잡을 전망이다.