AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

DFlash와 Spec V2, LLM 추론 속도 대폭 개선

DFlash와 Spec V2, LLM 추론 속도 대폭 개선

LMSYS
2026년 6월 16일 (화)
  • •DFlash는 병렬 블록 확산과 KV 주입을 활용해 LLM 추론 속도를 가속화한다.
  • •Qwen 3.5 397B-A17B 모델 기준, DFlash는 HumanEval에서 기존 대비 4.3배의 처리량을 달성했다.
  • •SGLang V2 엔진은 오버랩 스케줄링을 통해 모델 검증 과정에서 발생하는 호스트 측 오버헤드를 제거한다.
  • •DFlash는 병렬 블록 확산과 KV 주입을 활용해 LLM 추론 속도를 가속화한다.
  • •Qwen 3.5 397B-A17B 모델 기준, DFlash는 HumanEval에서 기존 대비 4.3배의 처리량을 달성했다.
  • •SGLang V2 엔진은 오버랩 스케줄링을 통해 모델 검증 과정에서 발생하는 호스트 측 오버헤드를 제거한다.

Z Lab, Modal, SGLang 팀은 2026년 6월 15일 LLM 추론 가속화를 위한 새로운 투기적 디코딩 기법인 DFlash를 공개했다. DFlash는 블록 확산 기반의 드래프트 모델과 타겟 모델의 은닉 상태를 드래프트 모델 메모리로 전송하는 KV 주입 전략을 사용하여 시스템이 여러 토큰을 동시에 생성할 수 있도록 지원한다. 이러한 설계는 최신 NVIDIA B200 GPU의 처리량을 충분히 활용하기 어려웠던 기존 자기회귀 방식 드래프트 모델의 순차적 처리 한계를 극복한다.

DFlash는 EAGLE-3 및 기존 멀티 토큰 예측(MTP) 방식보다 성능이 크게 향상됐다. HumanEval 코딩 데이터셋에서 Qwen 3.5 397B-A17B 모델을 테스트한 결과, DFlash는 기본 모델 대비 4.3배, MTP 대비 1.5배 높은 처리량을 기록했다. 특히 SGLang 추론 프레임워크의 Spec V2 엔진과 결합할 경우, GPU 연산과 동시에 KV 캐시 할당 및 메타데이터 정리와 같은 호스트 작업을 수행하는 오버랩 스케줄링이 가능해져 동기화 지연 시간이 크게 줄어든다.

이번 협업을 통해 개발자들은 오픈 웨이트 모델을 활용한 DFlash 가속 서버를 구축할 수 있게 됐다. 개발 팀은 Qwen 3.5 397B-A17B용 버전을 포함해 Hugging Face에 DFlash 드래프트 모델들을 공개했다. 모듈형 방식을 채택한 이 기술은 사용자가 다양한 타겟 LLM에 블록 확산 및 KV 주입 전략을 적용할 수 있도록 설계됐다. 또한 드래프트 모델의 깊이가 깊어져도 높은 수용 길이를 유지하는 동시에 낮은 드래프트 지연 시간을 확보하여 효율적인 성능을 보장한다.

Z Lab, Modal, SGLang 팀은 2026년 6월 15일 LLM 추론 가속화를 위한 새로운 투기적 디코딩 기법인 DFlash를 공개했다. DFlash는 블록 확산 기반의 드래프트 모델과 타겟 모델의 은닉 상태를 드래프트 모델 메모리로 전송하는 KV 주입 전략을 사용하여 시스템이 여러 토큰을 동시에 생성할 수 있도록 지원한다. 이러한 설계는 최신 NVIDIA B200 GPU의 처리량을 충분히 활용하기 어려웠던 기존 자기회귀 방식 드래프트 모델의 순차적 처리 한계를 극복한다.

DFlash는 EAGLE-3 및 기존 멀티 토큰 예측(MTP) 방식보다 성능이 크게 향상됐다. HumanEval 코딩 데이터셋에서 Qwen 3.5 397B-A17B 모델을 테스트한 결과, DFlash는 기본 모델 대비 4.3배, MTP 대비 1.5배 높은 처리량을 기록했다. 특히 SGLang 추론 프레임워크의 Spec V2 엔진과 결합할 경우, GPU 연산과 동시에 KV 캐시 할당 및 메타데이터 정리와 같은 호스트 작업을 수행하는 오버랩 스케줄링이 가능해져 동기화 지연 시간이 크게 줄어든다.

이번 협업을 통해 개발자들은 오픈 웨이트 모델을 활용한 DFlash 가속 서버를 구축할 수 있게 됐다. 개발 팀은 Qwen 3.5 397B-A17B용 버전을 포함해 Hugging Face에 DFlash 드래프트 모델들을 공개했다. 모듈형 방식을 채택한 이 기술은 사용자가 다양한 타겟 LLM에 블록 확산 및 KV 주입 전략을 적용할 수 있도록 설계됐다. 또한 드래프트 모델의 깊이가 깊어져도 높은 수용 길이를 유지하는 동시에 낮은 드래프트 지연 시간을 확보하여 효율적인 성능을 보장한다.

원문 보기 (영어)·2026년 6월 15일
#llm#inference#sglang#speculative decoding#dflash#qwen