この記事の要点は？

Q: この記事の要点は？

IntelとSGLangは、CPUとGPU間でのEPD分散処理により、VLMの推論サービスを高速化した。 新しいデバイス対応型加重ルーターにより、ハードウェア間の能力比率に基づいたエンコーダー負荷の最適化を実現した。 XeonとL40Sを組み合わせたシステムで、スループットが1.2〜1.3倍に向上し、TPOTも大幅に短縮した。

IntelとSGLangは、CPUとGPU間でのEPD分散処理により、VLMの推論サービスを高速化した。新しいデバイス対応型加重ルーターにより、ハードウェア間の能力比率に基づいたエンコーダー負荷の最適化を実現した。 XeonとL40Sを組み合わせたシステムで、スループットが1.2〜1.3倍に向上し、TPOTも大幅に短縮した。

IntelとSGLang、VLM推論を高速化するEPD分散手法を発表

•IntelとSGLangは、CPUとGPU間でのEPD分散処理により、VLMの推論サービスを高速化した。
•新しいデバイス対応型加重ルーターにより、ハードウェア間の能力比率に基づいたエンコーダー負荷の最適化を実現した。
•XeonとL40Sを組み合わせたシステムで、スループットが1.2〜1.3倍に向上し、TPOTも大幅に短縮した。

•IntelとSGLangは、CPUとGPU間でのEPD分散処理により、VLMの推論サービスを高速化した。
•新しいデバイス対応型加重ルーターにより、ハードウェア間の能力比率に基づいたエンコーダー負荷の最適化を実現した。
•XeonとL40Sを組み合わせたシステムで、スループットが1.2〜1.3倍に向上し、TPOTも大幅に短縮した。

IntelとSGLangのチームは2026年5月29日、CPUとGPUの異種混在環境でEPD（エンコード・プリフィル・デコード）タスクを分散し、VLM（Vision-Language Model）のサービス提供を最適化する手法を公開した。画像処理が集中するワークロードでボトルネックとなりやすいビジョンエンコード処理をCPUヘッドノードにオフロードすることで、性能の大幅な向上を実現した。この手法では、Intel Xeonプロセッサに搭載されたAMX（Advanced Matrix Extensions）行列演算アクセラレーターを活用し、初期のプリフィル段階で発生するビジョンエンコーダーのタスクを効率的に処理する。

同チームは、Dynamoフレームワーク（PR #7215）にデバイス対応型の加重ルーターを実装し、リクエストの割り当てを管理している。このルーターは、Capability Ratio（能力比率）によって定義された予算ベースのメカニズムを用い、GPUとCPUのプール間で稼働中のリクエスト負荷を調整する。システムは、CPUのリクエスト許容予算を算出することで、CPUの負荷が低い際にリクエストを振り分け、GPUの負荷と同期して動作するよう設計されている。

Intel Xeon 6747P CPU 5基とNVIDIA L40S GPUを組み合わせ、Qwen3-VL-8B-Instructモデルを用いて検証を行った結果、明らかな性能向上が確認された。1.0〜2.0 QPS（クエリ/秒）の負荷下では、純粋なGPUベースの分散環境と比較して、P99 TTFT（Time to First Token）および全体のスループットで1.2〜1.3倍の性能向上を達成した。さらに、ビジョン処理のオフロードによりキューイングの遅延が解消されたことで、P99 TPOT（Time Per Output Token）も1.3〜30倍の短縮を実現した。このシステムレベルの最適化は、既存のCPUリソースを有効活用することで、VLM導入における投資対効果を最大化する。

IntelとSGLangのチームは2026年5月29日、CPUとGPUの異種混在環境でEPD（エンコード・プリフィル・デコード）タスクを分散し、VLM（Vision-Language Model）のサービス提供を最適化する手法を公開した。画像処理が集中するワークロードでボトルネックとなりやすいビジョンエンコード処理をCPUヘッドノードにオフロードすることで、性能の大幅な向上を実現した。この手法では、Intel Xeonプロセッサに搭載されたAMX（Advanced Matrix Extensions）行列演算アクセラレーターを活用し、初期のプリフィル段階で発生するビジョンエンコーダーのタスクを効率的に処理する。

同チームは、Dynamoフレームワーク（PR #7215）にデバイス対応型の加重ルーターを実装し、リクエストの割り当てを管理している。このルーターは、Capability Ratio（能力比率）によって定義された予算ベースのメカニズムを用い、GPUとCPUのプール間で稼働中のリクエスト負荷を調整する。システムは、CPUのリクエスト許容予算を算出することで、CPUの負荷が低い際にリクエストを振り分け、GPUの負荷と同期して動作するよう設計されている。

Intel Xeon 6747P CPU 5基とNVIDIA L40S GPUを組み合わせ、Qwen3-VL-8B-Instructモデルを用いて検証を行った結果、明らかな性能向上が確認された。1.0〜2.0 QPS（クエリ/秒）の負荷下では、純粋なGPUベースの分散環境と比較して、P99 TTFT（Time to First Token）および全体のスループットで1.2〜1.3倍の性能向上を達成した。さらに、ビジョン処理のオフロードによりキューイングの遅延が解消されたことで、P99 TPOT（Time Per Output Token）も1.3〜30倍の短縮を実現した。このシステムレベルの最適化は、既存のCPUリソースを有効活用することで、VLM導入における投資対効果を最大化する。