SGLang, 백만 토큰 처리 가능한 파이프라인 병렬화 공개
- •LMSYS가 백만 토큰 컨텍스트 처리와 노드 간 확장이 가능한 SGLang의 최적화된 파이프라인 병렬화 기술을 도입했다.
- •새로운 구현 방식은 DeepSeek-V3.1 모델에서 기존 병렬 방식 대비 3.31배 높은 프리필 처리량을 달성했다.
- •Dynamic Chunking과 비동기 P2P 통신 기능을 통해 파이프라인 버블과 지연 시간을 67.9% 감소시켰다.
LMSYS ORG가 대규모 언어 모델을 위한 고성능 추론 프레임워크인 SGLang의 대규모 업데이트를 발표했다. 이번 업데이트의 주도적 개발자인 Shangming Cai(SGLang 핵심 개발자)는 모델이 조 단위 파라미터 규모로 커지고 무한한 컨텍스트 창을 갖게 됨에 따라 기존 하드웨어 전략이 한계에 부딪히고 있다고 설명했다. 이번 업데이트는 모델 레이어를 여러 GPU에 분산 배치하는 기술인 파이프라인 병렬화에 집중했다. 이 방식은 다중 노드 설정에서 발생하는 과도한 통신 부담을 줄여 백만 토큰이 넘는 대규모 프롬프트를 원활하게 처리할 수 있게 한다. 데이터 대기 시간 동안 GPU가 유휴 상태로 머무는 현상인 '파이프라인 버블' 문제를 해결하기 위해 SGLang은 Chunked Pipeline Parallelism을 도입했다. 이 방법은 긴 입력 시퀀스를 작은 조각인 청크 단위로 나눈다. GPU는 전체 프롬프트가 처리될 때까지 기다리는 대신 다음 정보를 즉시 처리할 수 있다. 이를 통해 하드웨어 가동률을 극대화하고 사용자가 AI 응답을 받기 전까지의 지연 시간인 TTFT를 대폭 단축했다. 또한 시스템에 비동기 P2P 통신과 Dynamic Chunking 기술을 통합했다. 이러한 기능들은 하드웨어가 계산을 수행하는 동시에 칩 간 데이터를 전송할 수 있게 하여 유휴 시간을 더욱 최소화한다. DeepSeek-V3.1 모델을 사용한 실전 테스트 결과, 이 새로운 구조는 기존 방식보다 30% 더 우수한 성능을 보여주었으며, 대규모 클러스터에서 모델 레이어별로 작업을 나누는 방식이 더 효율적임을 입증했다. LMSYS는 이러한 도구들을 오픈 소스로 공개함으로써 개발자들이 독점적인 설정 없이도 초장문 시퀀스를 처리할 수 있는 확장 가능한 경로를 제공했다. 이러한 인프라는 단일 요청으로 책 한 권이나 방대한 코드베이스 전체를 처리해야 하는 차세대 AI 에이전트 구축에 필수적이다.