이미지와 텍스트를 동시에 처리하는 인공지능 모델의 속도가 8배 향상
- •LMSYS가 시각 인코딩과 언어 처리를 분리하는 SGLang 전용 EPD 아키텍처를 발표했다.
- •시각 인코더의 수평적 확장을 통해 멀티모달 작업의 초기 토큰 생성 시간(TTFT)을 6~8배 단축했다.
- •시각 임베딩 캐싱과 RDMA 기반 전송 백엔드를 구현하여 전체 시스템 처리량을 최적화했다.
**UC Berkeley를 중심으로 한 오픈 연구 조직 ‘**LMSYS’가 알리바바 클라우드, 앤트그룹 SCT 엔지니어들과 함께 SGLang에 인코더-프리필-디코드 분리 구조를 도입했다. 핵심은 VLM 추론 과정에서 이미지 처리와 언어 처리를 분리해, 서로 발목을 잡지 않게 만든 점이다. 기존에는 이 두 구간을 텐서 병렬 처리로 묶어서 함께 키우는 방식이 많았다. 하지만 이 방식은 장비 간 통신이 늘어 오버헤드가 커지고, 상대적으로 작은 시각 인코더까지 언어 모델과 같이 확장해야 해 효율이 떨어지는 문제가 있었다. EPD는 시각 인코더를 별도 단위로 수평 확장할 수 있게 해, 멀티 이미지 추론처럼 이미지 비중이 큰 작업에서 성능을 끌어올렸다. 시각 임베딩 캐싱으로 같은 이미지를 반복 계산하지 않도록 했고, Mooncake 같은 고대역폭 전송으로 지연도 줄였다. 벤치마크에서는 TTFT를 최대 8배 줄이고, 요청 처리량은 2배 높인 것으로 나타났다. 결과적으로 무거운 시각 작업이 언어 생성 파이프라인을 늦추지 않도록 만드는 모듈형 인프라 방향을 제시했다.
*1 SGLang: 대규모 언어 모델(LLM)·비전언어모델(VLM)을 빠르고 효율적으로 서비스하기 위한 “추론(inference) 프레임워크
*2 VLM: 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능 모델
*3 EPD: VLM 추론에서 시각 인코딩(Encoder)과 언어 처리(Prefill·Decode)를 분리해 각각 따로 확장·최적화할 수 있게 만든 3단계 구조
*4 Mooncake: EPD 구조에서 시각 임베딩 같은 데이터를 고대역폭·저지연으로 빠르게 전달하기 위한 전송 메커니즘
*5 TTFT(Time To First Token): AI 모델에 요청을 보낸 뒤 첫 번째 토큰이 출력되기까지 걸리는 시간