この記事の要点は？

AWSは大規模言語モデル向けの投機的デコーディングを並列化するP-EAGLEをリリースした。 P-EAGLEはNVIDIA B200環境でEAGLE-3を最大1.69倍上回る推論スループットを実現する。 Amazon SageMaker JumpStartで複数の基盤モデルに対し、P-EAGLEのネイティブサポートが開始された。

AWS、投機的デコーディングを高速化する「P-EAGLE」を発表

•AWSは大規模言語モデル向けの投機的デコーディングを並列化するP-EAGLEをリリースした。
•P-EAGLEはNVIDIA B200環境でEAGLE-3を最大1.69倍上回る推論スループットを実現する。
•Amazon SageMaker JumpStartで複数の基盤モデルに対し、P-EAGLEのネイティブサポートが開始された。

AWSは、従来の自己回帰フレームワークに不可欠だった逐次的な依存関係を排除し、投機的デコーディングを並列化する手法「P-EAGLE」を導入した。従来の投機的デコーディングでは、軽量なドラフトモデルが将来のトークンを1つずつ推測する必要があり、推測の深度に比例してレイテンシが増大するという課題があった。P-EAGLEは学習可能なプレースホルダーであるembmaskとhsharedを活用することで、ドラフトトークンを単一のフォワードパスで同時に予測する。この手法により、ドラフターのレイテンシを増加させることなく推測の深度を深めることが可能となった。

NVIDIA B200 GPU上でQwen3-Coder-30B-A3B-Instructモデルを使用して実施されたベンチマークでは、顕著な性能向上が確認されている。HumanEvalではEAGLE-3と比較して1.12倍から1.22倍の推論スループットを達成した。またSPEED-Benchにおいても1.02倍から1.41倍の向上が見られ、最大128という高並列環境下でも一貫した優位性を維持している。これらの結果は、標準的な推論および既存のEAGLE-3フレームワークを全てのトークン数において上回るものだ。

Amazon SageMaker JumpStartでは、GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B-Instruct、Gemma-4-31B-ITを含む多様な基盤モデルに対し、P-EAGLEのネイティブサポートが追加された。開発者はSageMaker Studioコンソールから、環境変数「SM_VLLM_SPECULATIVE_CONFIG」に「'parallel_drafting': true」を設定するだけで、P-EAGLEで最適化された推論エンドポイントを展開できる。この統合により、複雑なCUDAカーネルや分散型の提供設定を手動で管理することなく、投機的デコーディング特有の検証プロセスを通じて、標準的な自己回帰生成と数学的に同一の出力を維持しながらリアルタイム推論を実行できる。

AWSは、従来の自己回帰フレームワークに不可欠だった逐次的な依存関係を排除し、投機的デコーディングを並列化する手法「P-EAGLE」を導入した。従来の投機的デコーディングでは、軽量なドラフトモデルが将来のトークンを1つずつ推測する必要があり、推測の深度に比例してレイテンシが増大するという課題があった。P-EAGLEは学習可能なプレースホルダーであるembmaskとhsharedを活用することで、ドラフトトークンを単一のフォワードパスで同時に予測する。この手法により、ドラフターのレイテンシを増加させることなく推測の深度を深めることが可能となった。

NVIDIA B200 GPU上でQwen3-Coder-30B-A3B-Instructモデルを使用して実施されたベンチマークでは、顕著な性能向上が確認されている。HumanEvalではEAGLE-3と比較して1.12倍から1.22倍の推論スループットを達成した。またSPEED-Benchにおいても1.02倍から1.41倍の向上が見られ、最大128という高並列環境下でも一貫した優位性を維持している。これらの結果は、標準的な推論および既存のEAGLE-3フレームワークを全てのトークン数において上回るものだ。

Amazon SageMaker JumpStartでは、GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B-Instruct、Gemma-4-31B-ITを含む多様な基盤モデルに対し、P-EAGLEのネイティブサポートが追加された。開発者はSageMaker Studioコンソールから、環境変数「SM_VLLM_SPECULATIVE_CONFIG」に「'parallel_drafting': true」を設定するだけで、P-EAGLEで最適化された推論エンドポイントを展開できる。この統合により、複雑なCUDAカーネルや分散型の提供設定を手動で管理することなく、投機的デコーディング特有の検証プロセスを通じて、標準的な自己回帰生成と数学的に同一の出力を維持しながらリアルタイム推論を実行できる。