Cohere、マルチテナント推論の公平性を向上
Cohere
2026年6月24日 (水)
- •CohereはSaaSプラットフォームにおける「ノイジーネイバー」問題を防ぐため、4段階の推論スケジューリングシステムを導入した。
- •Deficit Round Robinアルゴリズムを採用し、テナント組織間でGPU計算能力を公平に割り当てる仕組みを実現した。
- •新公平性フレームワークは現在、全てのCohereモデルのSaaS APIおよびAWS環境で利用可能である。
CohereはSaaSプラットフォームにおいて、特定のテナントがリソースを独占する「ノイジーネイバー」による性能ボトルネックを防ぐため、新たなマルチテナント推論スケジューリングシステムを導入した。複数の組織が同じGPUリソースを共有する環境では、特定のテナントからの急激なトラフィック増大が他者のレイテンシを増大させる問題が存在していた。これに対処するため、公平性とサービスレベル合意(SLA)、そしてハードウェア稼働効率を両立させる4段階のリクエスト管理アーキテクチャが構築された。
システムは固定された手順でリクエストを処理する。まずレートリミッターが許容量を超える要求を拒否し、次にパフォーマンスティア選定器が商業的な契約等級に基づきリクエストの優先順位を決定する。続いて、Deficit Round Robinアルゴリズムが各組織に割り当てられた「クォンタム」と呼ばれる作業予算に基づき、階層内での公平な配分を管理する。これにより、大量のリクエストを送信するテナントがGPU時間を独占することを防ぐ仕組みとなっている。
Cohereはエンドポイントの種類に応じて2つの予算モデルを使い分ける。生成モデルにはリクエスト単位のコスト計算を適用し、埋め込みやリランカーのようなバッチ処理型のエンドポイントにはトークン数に応じたコスト計算を行うことで、GPUリソース消費をより正確に反映させる。最後に、優先度選定器が各テナント内での緊急度や期限、到着時刻に基づいて順序を調整する。この設計によりテナント間の独立性が保たれ、同社のAPIやAWS上のデプロイメント環境において効率的かつ予測可能なサービス提供が可能となった。