이 기사의 핵심 내용은?

SGLang이 NVIDIA GB300 NVL72에서 이전 세대 Hopper GPU 대비 25배 빠른 추론 속도를 달성했다. Blackwell Ultra의 NVFP4 정밀도와 메모리 최적화를 통해 추론 모델의 지연 시간을 대폭 단축했다. NVIDIA와의 협력을 통해 소프트웨어 및 커널을 개선함으로써 GB200 시스템에서 8배의 성능 향상을 구현했다.

NVIDIA와 SGLang, AI 추론 속도 25배 가속

•SGLang이 NVIDIA GB300 NVL72에서 이전 세대 Hopper GPU 대비 25배 빠른 추론 속도를 달성했다.
•Blackwell Ultra의 NVFP4 정밀도와 메모리 최적화를 통해 추론 모델의 지연 시간을 대폭 단축했다.
•NVIDIA와의 협력을 통해 소프트웨어 및 커널을 개선함으로써 GB200 시스템에서 8배의 성능 향상을 구현했다.

NVIDIA와 SGLang 개발 팀이 AI 성능의 비약적인 도약을 발표하며, 복잡한 추론 모델의 속도를 25배나 높이는 데 성공했다. 특히 새로운 GB300 NVL72 시스템에서 DeepSeek R1 모델을 구동한 결과, 긴밀하게 통합된 소프트웨어와 하드웨어가 첨단 AI 운영 비용을 얼마나 획기적으로 낮출 수 있는지를 입증했다. 이러한 돌파구의 중심에는 초고속 메모리인 HBM3e를 탑재한 Blackwell Ultra 아키텍처가 있으며, 이는 현대 AI 모델의 과중한 연산 요구 사항을 처리할 수 있는 충분한 용량을 제공한다.

핵심 혁신 중 하나는 NVFP4라는 새로운 데이터 포맷을 도입한 것이다. 이 포맷은 모델이 의사결정에 사용하는 내부 파라미터인 가중치의 크기를 정확도 손실 없이 줄여준다. 그 결과 시스템을 통과하는 데이터 양이 절반으로 줄어들어, 하드웨어는 훨씬 더 많은 양의 요청을 동시에 처리할 수 있게 되었다. 특히 작업마다 네트워크의 특정 부분만 활성화하여 에너지와 시간을 절약하는 Mixture of Experts(MoE) 모델에서 이러한 방식은 매우 효과적으로 작용한다.

또한 이 시스템은 GPU가 연산을 수행하는 동시에 네트워크상의 다른 칩으로 데이터를 전송할 수 있는 '연산-통신 중첩' 기술을 도입했다. 하나의 작업이 끝나기를 기다렸다가 다음 작업을 시작하는 대신, 전체 시스템이 마치 고속 조립 라인처럼 유기적으로 작동하게 된 것이다. 실제로 이러한 효율성 개선 덕분에 개발자들은 이제 훨씬 낮은 지연 시간으로 최첨단 모델을 배포할 수 있게 되었으며, 대규모 AI 서비스 운영 비용을 절감하는 동시에 사용자에게는 더욱 즉각적인 상호작용 경험을 제공하게 되었다.

NVIDIA와 SGLang 개발 팀이 AI 성능의 비약적인 도약을 발표하며, 복잡한 추론 모델의 속도를 25배나 높이는 데 성공했다. 특히 새로운 GB300 NVL72 시스템에서 DeepSeek R1 모델을 구동한 결과, 긴밀하게 통합된 소프트웨어와 하드웨어가 첨단 AI 운영 비용을 얼마나 획기적으로 낮출 수 있는지를 입증했다. 이러한 돌파구의 중심에는 초고속 메모리인 HBM3e를 탑재한 Blackwell Ultra 아키텍처가 있으며, 이는 현대 AI 모델의 과중한 연산 요구 사항을 처리할 수 있는 충분한 용량을 제공한다.

핵심 혁신 중 하나는 NVFP4라는 새로운 데이터 포맷을 도입한 것이다. 이 포맷은 모델이 의사결정에 사용하는 내부 파라미터인 가중치의 크기를 정확도 손실 없이 줄여준다. 그 결과 시스템을 통과하는 데이터 양이 절반으로 줄어들어, 하드웨어는 훨씬 더 많은 양의 요청을 동시에 처리할 수 있게 되었다. 특히 작업마다 네트워크의 특정 부분만 활성화하여 에너지와 시간을 절약하는 Mixture of Experts(MoE) 모델에서 이러한 방식은 매우 효과적으로 작용한다.

또한 이 시스템은 GPU가 연산을 수행하는 동시에 네트워크상의 다른 칩으로 데이터를 전송할 수 있는 '연산-통신 중첩' 기술을 도입했다. 하나의 작업이 끝나기를 기다렸다가 다음 작업을 시작하는 대신, 전체 시스템이 마치 고속 조립 라인처럼 유기적으로 작동하게 된 것이다. 실제로 이러한 효율성 개선 덕분에 개발자들은 이제 훨씬 낮은 지연 시간으로 최첨단 모델을 배포할 수 있게 되었으며, 대규모 AI 서비스 운영 비용을 절감하는 동시에 사용자에게는 더욱 즉각적인 상호작용 경험을 제공하게 되었다.