マルチモーダルAIの推論を高速化する「M*」
- •M*は、マルチモーダルなリクエストをデータフローグラフ上の「ウォーク」としてモデル化するモジュール式の推論システムである。
- •Qwen3-Omniを用いたベンチマークにおいて、vLLM-Omni比で2.7倍、SGLang-Omni比で4倍のスループットを達成した。
- •並列処理や非自己回帰ループ、ストリーミングをネイティブにサポートし、複雑な多構成AIモデルに対応する。
スタンフォード大学の研究者らは、現代のマルチモーダルモデルの複雑な構成を処理するために設計されたモジュール式推論システム「M」を開発した。テキストベースの自己回帰ループ向けに構築された従来のシステムとは異なり、Mはリクエストを一連の「ウォーク(歩行)」としてデータフローグラフ上でモデル化する。これにより、音声認識システムやオムニモデル、ワールドモデルなど、構造的に多様なモデルを統一されたランタイムで実行可能だ。性能評価では、Qwen3-Omniのテキスト読み上げワークロードにおいて、vLLM-Omniより約2.7倍、SGLang-Omniより4倍高いスループットを達成し、初トークン生成時間(RTF)の短縮にも成功した。
現在の推論スタックでは、非自己回帰ループや内部並列処理、入力依存の実行パスを効率的に管理するために個別の調整コードが必要となる。Mは、モデルの各コンポーネントをテンソルエッジで接続されたグラフノードとして抽象化することでこの課題を解決した。開発者はモデルをグラフとして定義し、リクエストに応じた「ウォーク」の順序を決定する簡単なステートマシンを書くだけでよい。Mのランタイムは、配置、スケジューリング、バッチ処理、テンソル転送といった物理的な管理を担当するため、計算ロジックを変更することなくモデルのトポロジーを柔軟に変更できる。
Mは、多様なモデルアーキテクチャに適用可能なループや並列処理のための汎用的なプリミティブを導入した。例えば、計算の並列分岐を表現することで「Classifier-free guidance」をサポートし、異なるGPUランクで効率的に実行する。さらに、ストリーミングを最優先の動作として扱い、事前定義されたチャンクポリシーを用いることで「Thinker」「Talker」「codec」といったコンポーネントの処理を時間軸でオーバーラップさせ、段階的な出力生成を実現した。また、論理的なモデル定義と物理的な配置を切り離すことで、YAML設定ファイルを通じてGPU間でのノード分割やコンポーネント移動を容易にし、複雑なモデル展開における柔軟性を大きく向上させている。