MS 연구소, 추론 효율 혁신 'Multiplex Thinking' 공개
HuggingFace
2026년 1월 25일 (일)
- •Microsoft Research가 토큰 단위 병합 방식을 통해 AI 추론 속도와 효율을 높이는 'Multiplex Thinking'을 발표했다.
- •강화 학습을 활용해 여러 후보 토큰을 하나의 '멀티플렉스 토큰'으로 합쳐 연산 비용을 획기적으로 줄였다.
- •수학 벤치마크에서 기존 모델보다 짧은 문장으로도 더 높은 정확도를 기록하며 성능을 증명했다.
Microsoft Research가 기존 대규모 언어 모델 (LLM) 추론 방식의 고질적인 효율성 문제를 해결할 'Multiplex Thinking' 프레임워크를 선보였다. 기존 AI가 복잡한 문제를 풀 때 길고 지루한 사고 과정을 텍스트로 나열했다면, 이번 방식은 여러 가능성을 동시에 고려하는 인간의 직관적인 사고를 닮았다. '부드러운(soft)' 연속형 접근 방식을 채택해 시스템이 속도 저하 없이 수많은 갈래의 생각을 한 번에 처리하도록 설계한 것이 특징이다.
기술의 핵심은 '토큰 단위 브랜치-앤-머지(branch-and-merge)' 메커니즘이다. 매 순간 하나의 단어만 고르는 대신 여러 후보 단어를 뽑아 그 수학적 표현을 하나의 '멀티플렉스 토큰'에 담아낸다. 덕분에 모든 시나리오를 일일이 문장으로 만들지 않고도 다양한 논리 경로를 탐색할 수 있다. 이는 모델이 가진 지식 기반을 그대로 유지하면서도 복잡한 논리 구조를 아주 적은 수의 토큰으로 압축하는 결과로 이어진다.
이 모델은 강화 학습을 통해 스스로 최적의 논리 전개 방식을 깨우친다. 확신이 생기면 일반적인 생성 AI처럼 명쾌하게 답하고, 모호한 상황에서는 멀티플렉스 토큰으로 다양한 가능성을 압축적으로 표현하며 유연하게 대처한다. 실제 수학 벤치마크 테스트 결과, pass@k 등 주요 지표에서 기존 모델들을 제쳤다. 특히 훨씬 짧은 문장만으로도 정답에 도달하며 데이터 대역폭 효율을 획기적으로 높였다는 평가다.