音声AIアプリにおけるWebRTCの限界
Simon Willison
2026年5月10日 (日)
- •WebRTCプロトコルはネットワーク環境が悪化するとパケットを破棄し、低遅延を優先する仕様となっている。
- •ルーク・カーリー(Luke Curley)氏は、現在のブラウザによるWebRTC実装は、信頼性の高いLLM(大規模言語モデル)プロンプトには不向きであると指摘する。
- •現在の標準規格では音声パケットの再送ができず、プロンプトの正確性よりもリアルタイムの遅延低減が強制される。
本件は、リアルタイム通信プロトコルと現代の音声AIインターフェースのニーズとの間に生じている技術的な矛盾を浮き彫りにしている。WebRTCは、もともとブラウザベースのリアルタイム通信を目的として設計された規格である。ネットワーク状況が不安定な際には、音声の途切れを防ぎ、極限まで遅延を抑えるために、一部のパケットを意図的に破棄する挙動をとる。
このような仕様は、発話のテンポが重要なWeb会議などでは適している。しかし、AIとの対話においては話が別だ。ルーク・カーリー(Luke Curley)氏は、ユーザーの多くは多少の遅延を許容してでも、AIから正確な回答を得ることを望んでいると主張する。不完全な入力によってAIの回答精度が低下するよりも、200ミリ秒程度の待機時間を設ける方が遥かに合理的だという考えだ。現状のブラウザ向けWebRTC実装は、リアルタイム性を維持するようにハードコーディングされているため、パケットの再送ができない。この設計が、AIプロンプトの信頼性と通信品質との間でジレンマを生んでいる。