SGLang-Diffusion, 출시 2개월 만에 성능 1.5배 향상
LMSYS
2026년 1월 25일 (일)
- •NVIDIA 및 AMD GPU에서 1.5배 빨라진 세계 최고 수준의 추론 속도 달성
- •새로운 'Layerwise Offload' 기술로 VRAM 점유율을 낮추고 고해상도 생성 최적화
- •Cache-DiT 및 ComfyUI 완벽 통합으로 시각 모델 생성 속도 최대 169% 향상
LMSYS가 이미지와 영상 생성에 특화된 추론 프레임워크인 SGLang-Diffusion의 대규모 업데이트를 발표했다. 출시된 지 불과 두 달 만의 성과다. 이 시스템은 이전보다 1.5배 빨라졌으며, NVIDIA 하드웨어에서는 경쟁 솔루션보다 최대 5배나 뛰어난 세계 최고 수준의 성능을 보여준다. 이번 업데이트를 통해 SGLang-Diffusion은 고난도의 시각적 생성 작업을 처리할 수 있는 산업용 엔진으로 거듭났다. 기술적 핵심은 'Layerwise Offload' 시스템이다. 이 기술은 GPU가 현재 레이어를 계산하는 동안 Flux.2와 같은 모델에 쓰이는 복잡한 구조인 확산 트랜스포머의 다음 레이어 데이터를 미리 불러오는 방식이다. 작업을 겹쳐서 처리함으로써 병목 현상을 제거하고 메모리 사용량을 대폭 줄였다. 덕분에 일반 소비자용 하드웨어에서도 고해상도 콘텐츠를 원활하게 제작할 수 있게 됐다. 또한 전체 시스템을 재학습시키지 않고도 특정 스타일을 입힐 수 있는 저차원 적응(LoRA) 기능을 대폭 강화했다. 이제 사용자는 간편한 인터페이스를 통해 스타일 어댑터를 자유롭게 병합하거나 교체할 수 있다. 생성 속도를 169% 끌어올리는 Cache-DiT 기술과 새로운 ComfyUI 통합 기능까지 더해졌다. 개발자와 크리에이티브 전문가 모두에게 유연하고 효율적인 작업 환경을 제공한다.