이 기사의 핵심 내용은?

AWS는 대규모 언어 모델을 위한 투기적 디코딩 병렬화 기술인 P-EAGLE을 출시했다. P-EAGLE은 NVIDIA B200 하드웨어에서 EAGLE-3 대비 최대 1.69배 향상된 추론 처리량을 기록했다. Amazon SageMaker JumpStart는 현재 여러 파운데이션 모델에 대해 P-EAGLE을 기본 지원한다.

AWS, 투기적 디코딩 가속화하는 P-EAGLE 공개

•AWS는 대규모 언어 모델을 위한 투기적 디코딩 병렬화 기술인 P-EAGLE을 출시했다.
•P-EAGLE은 NVIDIA B200 하드웨어에서 EAGLE-3 대비 최대 1.69배 향상된 추론 처리량을 기록했다.
•Amazon SageMaker JumpStart는 현재 여러 파운데이션 모델에 대해 P-EAGLE을 기본 지원한다.

AWS는 이전의 자기회귀 프레임워크가 요구했던 순차적 의존성을 제거하여 투기적 디코딩을 병렬화하는 방식인 P-EAGLE(Parallel-EAGLE)을 도입했다. 기존 투기적 디코딩 방식에서는 경량화된 초안 모델이 미래 토큰을 하나씩 예측하는데, 이때 투기 깊이가 깊어질수록 지연 시간이 선형적으로 증가하는 병목 현상이 발생한다. P-EAGLE은 학습 가능한 플레이스홀더인 마스크 토큰 임베딩(embmask)과 공유 은닉 상태(hshared)를 활용해 이를 대체하며, 단 한 번의 순전파 과정으로 모든 초안 토큰을 동시에 예측한다. 이러한 병렬화 혁신 덕분에 초안 모델의 지연 시간 오버헤드 증가 없이도 더 깊은 단계의 추론이 가능하다.

NVIDIA B200 GPU에서 Qwen3-Coder-30B-A3B-Instruct 모델을 사용한 벤치마크 결과, P-EAGLE은 괄목할 만한 성능 향상을 보였다. HumanEval 벤치마크에서는 EAGLE-3 대비 1.12배에서 1.22배의 추론 처리량 상승을 달성했다. 또한 SPEED-Bench 평가에서는 최대 128의 높은 동시성 수준에서도 1.02배에서 1.41배의 성능 이득을 유지했다. 이러한 결과는 다양한 토큰 개수 환경에서 표준 추론 방식은 물론 기존 EAGLE-3 프레임워크를 상회하는 수치다.

현재 Amazon SageMaker JumpStart는 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct, Gemma-4-31B-IT 등 다양한 파운데이션 모델에 P-EAGLE을 기본 지원한다. 개발자는 'SM_VLLM_SPECULATIVE_CONFIG' 환경 변수에 'parallel_drafting': true를 설정하여 SageMaker Studio 콘솔을 통해 P-EAGLE 가속화 추론 엔드포인트를 즉시 배포할 수 있다. 이번 통합을 통해 사용자는 복잡한 CUDA 커널 관리나 수동 분산 서버 설정 없이 최적화된 실시간 엔드포인트를 이용할 수 있으며, 투기적 디코딩 본연의 검증 단계를 거쳐 출력값의 정확성은 기존 자기회귀 생성과 동일하게 보장된다.

AWS는 이전의 자기회귀 프레임워크가 요구했던 순차적 의존성을 제거하여 투기적 디코딩을 병렬화하는 방식인 P-EAGLE(Parallel-EAGLE)을 도입했다. 기존 투기적 디코딩 방식에서는 경량화된 초안 모델이 미래 토큰을 하나씩 예측하는데, 이때 투기 깊이가 깊어질수록 지연 시간이 선형적으로 증가하는 병목 현상이 발생한다. P-EAGLE은 학습 가능한 플레이스홀더인 마스크 토큰 임베딩(embmask)과 공유 은닉 상태(hshared)를 활용해 이를 대체하며, 단 한 번의 순전파 과정으로 모든 초안 토큰을 동시에 예측한다. 이러한 병렬화 혁신 덕분에 초안 모델의 지연 시간 오버헤드 증가 없이도 더 깊은 단계의 추론이 가능하다.

NVIDIA B200 GPU에서 Qwen3-Coder-30B-A3B-Instruct 모델을 사용한 벤치마크 결과, P-EAGLE은 괄목할 만한 성능 향상을 보였다. HumanEval 벤치마크에서는 EAGLE-3 대비 1.12배에서 1.22배의 추론 처리량 상승을 달성했다. 또한 SPEED-Bench 평가에서는 최대 128의 높은 동시성 수준에서도 1.02배에서 1.41배의 성능 이득을 유지했다. 이러한 결과는 다양한 토큰 개수 환경에서 표준 추론 방식은 물론 기존 EAGLE-3 프레임워크를 상회하는 수치다.

현재 Amazon SageMaker JumpStart는 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct, Gemma-4-31B-IT 등 다양한 파운데이션 모델에 P-EAGLE을 기본 지원한다. 개발자는 'SM_VLLM_SPECULATIVE_CONFIG' 환경 변수에 'parallel_drafting': true를 설정하여 SageMaker Studio 콘솔을 통해 P-EAGLE 가속화 추론 엔드포인트를 즉시 배포할 수 있다. 이번 통합을 통해 사용자는 복잡한 CUDA 커널 관리나 수동 분산 서버 설정 없이 최적화된 실시간 엔드포인트를 이용할 수 있으며, 투기적 디코딩 본연의 검증 단계를 거쳐 출력값의 정확성은 기존 자기회귀 생성과 동일하게 보장된다.