이 기사의 핵심 내용은?

SGLang-Diffusion은 토큰 단위 샤딩 기술을 도입해 동영상 모델 내 불필요한 연산을 제거했다. 새롭게 구현된 병렬 VAE를 통해 고해상도 동영상 생성 시 발생하는 메모리 오류를 방지한다. 커스텀 퓨즈드 커널과 최적화된 I/O는 실제 서비스 과정에서 GPU 대기 시간을 획기적으로 줄여준다.

LMSYS, 고효율 동영상 생성 프레임워크 공개

•SGLang-Diffusion은 토큰 단위 샤딩 기술을 도입해 동영상 모델 내 불필요한 연산을 제거했다.
•새롭게 구현된 병렬 VAE를 통해 고해상도 동영상 생성 시 발생하는 메모리 오류를 방지한다.
•커스텀 퓨즈드 커널과 최적화된 I/O는 실제 서비스 과정에서 GPU 대기 시간을 획기적으로 줄여준다.

LMSYS Org 팀이 현대적인 동영상 생성 모델의 막대한 연산 수요를 효율적으로 처리하기 위해 고도로 최적화된 추론 프레임워크인 SGLang-Diffusion을 출시했다. 고품질 동영상을 제작하는 과정은 시간과 해상도 등 여러 차원의 방대한 데이터를 동시에 다뤄야 하기에 기술적 난도가 매우 높기로 유명하다.

특히 이번에 공개된 ‘토큰 단위 샤딩(token-level sharding)’ 기술은 동영상 데이터를 기존 방식보다 훨씬 세밀하고 효율적으로 분산한다. 데이터를 GPU에 할당하기 전 평면화하여 처리함으로써, 과거 프로세서 간 통신 속도를 저하시켰던 불필요한 데이터 채우기(padding) 과정을 제거했다. 그 결과 GPU의 모든 연산 능력을 빈 공간이 아닌 실제 영상 생성에만 집중시킬 수 있게 되었다.

또한 고해상도 영상 제작 시 발생하는 메모리 부족 문제를 해결하고자 ‘병렬 VAE(Parallel VAE)’ 기술을 도입했다. 이 기술은 시각적 인코딩 과정을 여러 GPU에 나누어 배정해 하나의 프레임을 동시에 처리할 수 있게 돕는다. 이에 더해 여러 수학적 연산 단계를 하나로 통합한 ‘퓨즈드 커널(fused kernels)’을 적용하여, 프로세서가 다음 명령을 기다리는 동안 발생하는 미세한 지연 시간인 ‘GPU 버블’ 현상을 획기적으로 줄였다.

LMSYS Org 팀이 현대적인 동영상 생성 모델의 막대한 연산 수요를 효율적으로 처리하기 위해 고도로 최적화된 추론 프레임워크인 SGLang-Diffusion을 출시했다. 고품질 동영상을 제작하는 과정은 시간과 해상도 등 여러 차원의 방대한 데이터를 동시에 다뤄야 하기에 기술적 난도가 매우 높기로 유명하다.

특히 이번에 공개된 ‘토큰 단위 샤딩(token-level sharding)’ 기술은 동영상 데이터를 기존 방식보다 훨씬 세밀하고 효율적으로 분산한다. 데이터를 GPU에 할당하기 전 평면화하여 처리함으로써, 과거 프로세서 간 통신 속도를 저하시켰던 불필요한 데이터 채우기(padding) 과정을 제거했다. 그 결과 GPU의 모든 연산 능력을 빈 공간이 아닌 실제 영상 생성에만 집중시킬 수 있게 되었다.

또한 고해상도 영상 제작 시 발생하는 메모리 부족 문제를 해결하고자 ‘병렬 VAE(Parallel VAE)’ 기술을 도입했다. 이 기술은 시각적 인코딩 과정을 여러 GPU에 나누어 배정해 하나의 프레임을 동시에 처리할 수 있게 돕는다. 이에 더해 여러 수학적 연산 단계를 하나로 통합한 ‘퓨즈드 커널(fused kernels)’을 적용하여, 프로세서가 다음 명령을 기다리는 동안 발생하는 미세한 지연 시간인 ‘GPU 버블’ 현상을 획기적으로 줄였다.