MoEモデルの推論を高速化する経路最適化
- •投機的デコーディングはMixture-of-Expertsモデルの検証過程で性能のボトルネックを生む。
- •非単調な高速化曲線により、中規模のバッチサイズに最適な「スイートスポット」が存在する。
- •Mixture-of-Expertsモデル内の時系列的な経路選択パターンが検証コストを大幅に削減する。
AIモデルによる文章生成は、流れるような筆致とは程遠い。実際には、現在のチャットボットを支えるモデルは一度に1トークンずつしか単語を出力できない。これはアーティストが絵筆を塗るたびに絵具をつけ直すような作業であり、すべての単語においてモデルが構造全体を再計算する必要があるため、本質的に低速である。
この課題を解決する手段が投機的デコーディングだ。これは小型の高速モデルが数語先を「推測」し、大型の権威あるモデルがそれらを一括で検証する手法である。推測が正しければ、大型モデルの精度を維持しながら小型モデル並みの速度を得られる。
しかし、Mixture-of-Experts(専門家混合)モデルというアーキテクチャを採用すると状況は複雑になる。このモデルは必要な情報に対して特定の「専門家」のみを活性化させるため、通常時は安価だが、投機的デコーディングとは相性が悪い。推測と検証で異なる専門家が必要になると、意図した以上のデータをメモリから読み出すことになり、せっかくの高速化の恩恵が失われてしまうからだ。
AI企業Cohereの研究チームによる新たな分析は、このトレードオフを明確にしている。彼らは、モデルの高速化が単純な比例関係にはなく、非単調な曲線を描くことを発見した。つまり、バッチサイズ、すなわちシステムが同時に処理する要求数において、専門家の読み込みコストと並列検証の利得が釣り合う、明確な「スイートスポット」が存在するのだ。これはシステムが帯域幅制限を受けるか、計算能力制限を受けるかの境界線となる。
さらに直感に反する事実は、専門家選択における「時間的相関」にある。モデルがテキストを処理する際、連続するトークンはしばしば同じ専門家に依存する。これは人間が特定の道具を使い終えるまで持ち替えない動作に似ている。モデルは専門家の選択を自然にグループ化するため、投機的デコーディングのコストは大幅に下がる。推測と検証で同じ専門家が使われる可能性が高いため、メモリのオーバーヘッドが減少し、検証が事実上「無料」になる場面も出てくる。
この知見は次世代のAI設計に多大な影響を与える。モデルのスパース性(専門家の利用密度)を投機的デコーディングの要件と最適化することで、開発者は特定のワークロードに合わせてモデルを「調律」できる。高負荷環境では専門家数を絞って帯域幅制限の枠内で速度を最大化し、低負荷環境では共有された専門家で効率を高めるのだ。これは理論研究を実践的なエンジニアリングへと昇華させ、誰もがAIをより速く利用できる未来への橋渡しとなる。