LMSYS, 고효율 동영상 생성 프레임워크 공개
LMSYS
2026년 2월 18일 (수)
- •SGLang-Diffusion은 토큰 단위 샤딩 기술을 도입해 동영상 모델 내 불필요한 연산을 제거했다.
- •새롭게 구현된 병렬 VAE를 통해 고해상도 동영상 생성 시 발생하는 메모리 오류를 방지한다.
- •커스텀 퓨즈드 커널과 최적화된 I/O는 실제 서비스 과정에서 GPU 대기 시간을 획기적으로 줄여준다.
LMSYS Org 팀이 현대적인 동영상 생성 모델의 막대한 연산 수요를 효율적으로 처리하기 위해 고도로 최적화된 추론 프레임워크인 SGLang-Diffusion을 출시했다. 고품질 동영상을 제작하는 과정은 시간과 해상도 등 여러 차원의 방대한 데이터를 동시에 다뤄야 하기에 기술적 난도가 매우 높기로 유명하다.
특히 이번에 공개된 ‘토큰 단위 샤딩(token-level sharding)’ 기술은 동영상 데이터를 기존 방식보다 훨씬 세밀하고 효율적으로 분산한다. 데이터를 GPU에 할당하기 전 평면화하여 처리함으로써, 과거 프로세서 간 통신 속도를 저하시켰던 불필요한 데이터 채우기(padding) 과정을 제거했다. 그 결과 GPU의 모든 연산 능력을 빈 공간이 아닌 실제 영상 생성에만 집중시킬 수 있게 되었다.
또한 고해상도 영상 제작 시 발생하는 메모리 부족 문제를 해결하고자 ‘병렬 VAE(Parallel VAE)’ 기술을 도입했다. 이 기술은 시각적 인코딩 과정을 여러 GPU에 나누어 배정해 하나의 프레임을 동시에 처리할 수 있게 돕는다. 이에 더해 여러 수학적 연산 단계를 하나로 통합한 ‘퓨즈드 커널(fused kernels)’을 적용하여, 프로세서가 다음 명령을 기다리는 동안 발생하는 미세한 지연 시간인 ‘GPU 버블’ 현상을 획기적으로 줄였다.