M*: 멀티모달 AI 처리 효율을 높이는 모듈형 시스템
- •M*는 멀티모달 요청을 데이터 흐름 그래프(dataflow graph) 상의 경로 탐색으로 모델링하는 모듈형 서비스 시스템이다.
- •Qwen3-Omni 모델 기준, vLLM-Omni 대비 2.7배, SGLang-Omni 대비 4배 높은 처리량을 달성했다.
- •이 시스템은 병렬 처리, 비자기회귀 루프, 스트리밍 등을 기본으로 지원해 복합적인 멀티모달 모델을 효율적으로 구동한다.
스탠퍼드대 연구진과 협력자들은 현대 멀티모달 모델의 복잡한 다중 구성 요소 아키텍처를 처리하기 위해 설계된 모듈형 서비스 시스템 M를 개발했다. 기존 시스템이 주로 텍스트 기반의 자기회귀 루프에 맞춰져 있던 것과 달리, M는 요청을 데이터 흐름 그래프상의 일련의 경로로 모델링한다. 이를 통해 음성-텍스트 변환, 옴니 모델, 월드 모델 등 구조적으로 다양한 모델을 하나의 통합된 런타임으로 지원한다. 성능 테스트 결과, M는 Qwen3-Omni 텍스트-음성 변환 작업에서 vLLM-Omni 대비 약 2.7배, SGLang-Omni 대비 4배 높은 처리량을 기록하면서도 첫 토큰 생성 시간(RTF)은 낮게 유지했다.
최신 복합 모델은 비자기회귀 루프, 내부 병렬 처리, 입력 의존적 실행 경로를 필요로 하는 경우가 많지만, 기존 서비스 스택으로는 이를 효율적으로 관리하기 어렵다. M는 모델 구성 요소를 텐서 엣지로 연결된 그래프 노드로 일반화하여 이 문제를 해결한다. 개발자가 모델을 그래프로 정의하고 상태 머신을 작성하면, M 런타임이 배치, 스케줄링, 텐서 전송 등 물리적 제어를 담당한다. 덕분에 개발자는 연산 로직 변경 없이 모델의 토폴로지를 수정할 수 있다.
M는 다양한 모델 아키텍처에 적용 가능한 루프와 병렬 처리를 위한 일반적인 프리미티브를 도입했다. 예를 들어, 연산의 병렬 분기를 명시하여 분류기 자유 유도(Classifier-free guidance)를 지원하며, 런타임이 이를 서로 다른 GPU 랭크에서 실행한다. 또한 스트리밍을 핵심 기능으로 설계하여, 사전에 정의된 청크 정책을 통해 생각하는 모델과 말하는 모델 등의 구성 요소가 동시에 작동하며 증분 출력을 생성하게 한다. 사용자는 단일 YAML 설정 파일만으로 구성 요소를 이동하거나 노드를 샤딩할 수 있어 배포 유연성이 크게 향상된다.