NVIDIA와 SGLang, AI 추론 속도 25배 가속
- •SGLang이 NVIDIA GB300 NVL72에서 이전 세대 Hopper GPU 대비 25배 빠른 추론 속도를 달성했다.
- •Blackwell Ultra의 NVFP4 정밀도와 메모리 최적화를 통해 추론 모델의 지연 시간을 대폭 단축했다.
- •NVIDIA와의 협력을 통해 소프트웨어 및 커널을 개선함으로써 GB200 시스템에서 8배의 성능 향상을 구현했다.
NVIDIA와 SGLang 개발 팀이 AI 성능의 비약적인 도약을 발표하며, 복잡한 추론 모델의 속도를 25배나 높이는 데 성공했다. 특히 새로운 GB300 NVL72 시스템에서 DeepSeek R1 모델을 구동한 결과, 긴밀하게 통합된 소프트웨어와 하드웨어가 첨단 AI 운영 비용을 얼마나 획기적으로 낮출 수 있는지를 입증했다. 이러한 돌파구의 중심에는 초고속 메모리인 HBM3e를 탑재한 Blackwell Ultra 아키텍처가 있으며, 이는 현대 AI 모델의 과중한 연산 요구 사항을 처리할 수 있는 충분한 용량을 제공한다.
핵심 혁신 중 하나는 NVFP4라는 새로운 데이터 포맷을 도입한 것이다. 이 포맷은 모델이 의사결정에 사용하는 내부 파라미터인 가중치의 크기를 정확도 손실 없이 줄여준다. 그 결과 시스템을 통과하는 데이터 양이 절반으로 줄어들어, 하드웨어는 훨씬 더 많은 양의 요청을 동시에 처리할 수 있게 되었다. 특히 작업마다 네트워크의 특정 부분만 활성화하여 에너지와 시간을 절약하는 Mixture of Experts(MoE) 모델에서 이러한 방식은 매우 효과적으로 작용한다.
또한 이 시스템은 GPU가 연산을 수행하는 동시에 네트워크상의 다른 칩으로 데이터를 전송할 수 있는 '연산-통신 중첩' 기술을 도입했다. 하나의 작업이 끝나기를 기다렸다가 다음 작업을 시작하는 대신, 전체 시스템이 마치 고속 조립 라인처럼 유기적으로 작동하게 된 것이다. 실제로 이러한 효율성 개선 덕분에 개발자들은 이제 훨씬 낮은 지연 시간으로 최첨단 모델을 배포할 수 있게 되었으며, 대규모 AI 서비스 운영 비용을 절감하는 동시에 사용자에게는 더욱 즉각적인 상호작용 경험을 제공하게 되었다.