SpargeAttention2, 확산 모델 속도 16배 향상
HuggingFace
2026년 2월 21일 (토)
- •SpargeAttention2는 높은 품질을 유지하면서 어텐션 연산의 95%를 줄이는 데 성공했다.
- •Top-k와 Top-p를 결합한 하이브리드 마스킹으로 생성 시 디테일 손실을 방지한다.
- •비디오 확산 모델에 적용 시 어텐션 연산 속도를 기존 대비 16.2배 향상시켰다.
칭화대학교(Tsinghua University) 연구진이 고성능 AI 이미지 및 비디오 생성기의 핵심 기술인 확산 모델의 속도를 획기적으로 개선한 SpargeAttention2를 선보였다. 일반적으로 모델 구동 속도를 높이려는 시도는 시각적 품질의 하락을 동반하곤 하지만, 이 새로운 기법은 어텐션 메커니즘 연산의 95%를 생략하고도 원본에 가까운 고품질 결과물을 유지한다.
이러한 성과의 핵심은 텍스트 프롬프트나 비디오 프레임 중 결과물에 가장 중요한 요소를 찾아내는 '하이브리드 마스킹' 전략에 있다. 특히 상위 요소를 고정된 개수만큼 뽑는 Top-k 방식과 누적 확률에 따라 선택하는 Top-p 방식을 결합해 시스템의 견고함을 더했다. 이에 따라 AI가 연산 시간을 줄이는 과정에서 중요한 디테일을 놓쳐 화면이 깨지는 등의 전형적인 오류를 효과적으로 방지할 수 있게 되었다.
또한 연구진은 미세 조정 과정에 지식 증류 기술을 적용해 모델의 완성도를 높였다. 이는 스승 모델의 정밀한 출력을 제자 격인 효율화 모델이 그대로 복제하도록 학습시키는 방식으로, 성능 손실을 최소화한다. 실제로 비디오 확산 모델에 적용한 결과 어텐션 연산 속도가 무려 16.2배 빨라졌으며, 이는 표준적인 하드웨어에서도 고품질 AI 비디오를 즉각적으로 생성할 수 있는 길을 열어준 것으로 평가받는다.