IntelとSGLang、VLM推論を高速化するEPD分散手法を発表
- •IntelとSGLangは、CPUとGPU間でのEPD分散処理により、VLMの推論サービスを高速化した。
- •新しいデバイス対応型加重ルーターにより、ハードウェア間の能力比率に基づいたエンコーダー負荷の最適化を実現した。
- •XeonとL40Sを組み合わせたシステムで、スループットが1.2〜1.3倍に向上し、TPOTも大幅に短縮した。
IntelとSGLangのチームは2026年5月29日、CPUとGPUの異種混在環境でEPD(エンコード・プリフィル・デコード)タスクを分散し、VLM(Vision-Language Model)のサービス提供を最適化する手法を公開した。画像処理が集中するワークロードでボトルネックとなりやすいビジョンエンコード処理をCPUヘッドノードにオフロードすることで、性能の大幅な向上を実現した。この手法では、Intel Xeonプロセッサに搭載されたAMX(Advanced Matrix Extensions)行列演算アクセラレーターを活用し、初期のプリフィル段階で発生するビジョンエンコーダーのタスクを効率的に処理する。
同チームは、Dynamoフレームワーク(PR #7215)にデバイス対応型の加重ルーターを実装し、リクエストの割り当てを管理している。このルーターは、Capability Ratio(能力比率)によって定義された予算ベースのメカニズムを用い、GPUとCPUのプール間で稼働中のリクエスト負荷を調整する。システムは、CPUのリクエスト許容予算を算出することで、CPUの負荷が低い際にリクエストを振り分け、GPUの負荷と同期して動作するよう設計されている。
Intel Xeon 6747P CPU 5基とNVIDIA L40S GPUを組み合わせ、Qwen3-VL-8B-Instructモデルを用いて検証を行った結果、明らかな性能向上が確認された。1.0〜2.0 QPS(クエリ/秒)の負荷下では、純粋なGPUベースの分散環境と比較して、P99 TTFT(Time to First Token)および全体のスループットで1.2〜1.3倍の性能向上を達成した。さらに、ビジョン処理のオフロードによりキューイングの遅延が解消されたことで、P99 TPOT(Time Per Output Token)も1.3〜30倍の短縮を実現した。このシステムレベルの最適化は、既存のCPUリソースを有効活用することで、VLM導入における投資対効果を最大化する。