OpenAI、WebRTC基盤の最適化で音声遅延を大幅削減
- •OpenAIがWebRTCスタックを再構築し、数百万人のユーザーの会話遅延を劇的に短縮
- •「スプリットリレー」アーキテクチャの導入により、メディアルーティングと接続状態管理を分離
- •複雑なポート管理を回避し、グローバルなトラフィック増大にも対応可能な設計を実現
音声AI体験の本質は、人間同士の自然な会話速度に追従できるかにある。コンマ数秒の遅延でも発生すれば、それは流暢な対話という魔法を打ち消し、「プッシュ・トゥ・トーク」方式のようなぎこちないロボット的な操作感へと変貌させてしまう。開発者とユーザーにとって、マイクからモデルへ、そして再び戻るまでの「往復遅延時間」を最小化することは、現代の対話型インターフェースにおける最大の難関である。OpenAIは、膨大なグローバルトラフィックを処理しつつも応答性を維持するため、内部インフラを根本から再設計した。
この課題の中核にあるのは、ブラウザやモバイルアプリ間でのリアルタイム通信を可能にする業界標準技術「WebRTC」である。WebRTCはネットワーク接続や音声ストリームの複雑な調整を担う強力なツールだが、本来、コンテナ化されたクラウド環境で数億人が利用するような超大規模な拡張を想定して設計されてはいない。その最大の障害となったのが、各ユーザーセッションに専用ポートを割り当てる「ポート枯渇」の問題である。数百万規模のユーザーにスケールさせることは、負荷分散装置やファイアウォールの管理を行うエンジニアにとって物流上の悪夢に近い困難を伴った。
このボトルネックを解消するため、OpenAIのエンジニアリングチームは「スプリットリレー」という革新的なアーキテクチャを開発した。これは通信スタックを一括管理する従来の手法を捨て、軽量な「リレー」と状態を保持する「トランシーバー」という2つの階層に役割を分離するものである。リレーは交通整理係のように、複雑な会話内容を把握することなく、データパケットを適切な場所へ機械的に送り届けることに特化する。このリレーは極めて軽量に設計されており、リソース消費を最小限に抑えることで、利用者の増加に応じた水平スケーリングを可能にしている。
一方、トランシーバーはシステムの「頭脳」としての役割を担う。暗号化キーやネットワーク接続の詳細といったセッションの深い状態を管理するが、大量のデータルーティング処理に埋没することはない。このようにルーティングとセッション状態管理を切り離すことで、従来的なネットワーク制限を回避した。結果として、Kubernetesのような大規模ソフトウェア展開を動的に管理する標準的なクラウドオーケストレーション基盤上での稼働が実現した。
今回のアーキテクチャの変更は、「シン(軽量)」なシステム工学の成功例と言える。リレーが接続時のハンドシェイクで確立されたICE認証情報のみを確認してトラフィックを即座にルーティングするため、クライアントからは標準的なWebRTCとして振る舞いながら、内部的には低負荷かつ迅速なターン・テーキング(発言の交代)が可能となる。このアプローチは、リアルタイムAIを扱う際、システムを単に複雑化させるのではなく、最も重要なデータが通る経路を極限まで効率化することこそが最善であると証明している。