Wan-Streamer v0.1、リアルタイム対話モデルを発表
- •Wan-Streamer v0.1は、リアルタイムの音声・映像対話を可能にするエンドツーエンドモデルとして公開された。
- •統合されたTransformerアーキテクチャにより、モデル側の遅延は200ms、システム全体の対話応答速度は550msを達成した。
- •システムは全二重通信をサポートし、25fpsで同期された映像と音声を同時に認識・生成する。
リャンフア・ホアン(Lianghua Huang)ら研究チームは2026年6月23日、リアルタイムかつ低遅延な音声・映像対話に特化したネイティブストリーミング基盤モデル「Wan-Streamer v0.1」を発表した。言語、音声、映像を単一のTransformerアーキテクチャに統合することで、ASR(自動音声認識)やTTS(音声合成)といった外部モジュールに依存せず、認識、推論、生成、ターンの管理を共同で行う。設計には入力と出力のトークンをインターリーブして管理するブロック因果アテンションを採用しており、25fpsにおいて最短160msのインクリメンタルなストリーミングが可能だ。
本システムは、約200msのモデル側応答遅延を達成しており、350msの双方向ネットワーク遅延を含めても、システム全体の対話応答速度は約550msに収まる。これにより、ユーザーの入力を連続的に認識しながら、同期された音声と映像の応答を同時に生成する全二重通信を実現した。ビジョン、音声、レンダリングを個別のモデルで接続するカスケード型パイプラインとは異なり、単一のフレームワークで処理することで、パイプラインの誤差と同期遅延を低減している。
研究者らによれば、Wan-Streamerは同期された映像コンテンツを出力しつつ、サブ秒単位のパフォーマンスを維持する唯一のエンドツーエンド対話モデルである。他のシステムが言語モデルや音声処理の依存関係を除外して遅延を測定する場合があるのに対し、本モデルは統合された単一ユニットとしてリアルタイムのフィードバックを提供する。開発チームは、このアーキテクチャが複雑な人間の入力を効率的に理解し応答することを可能にし、ストリーミング対話における統合モデルへの転換点になると述べた。