リアルタイム音声対話モデルAudio-Interactionが登場
HuggingFace
2026年6月5日 (金)
- •シンガポールの研究チームが、リアルタイムの音声指示実行とオフラインタスクに対応する統合ストリーミングモデルAudio-Interactionを開発した。
- •SoundFlowフレームワークは、非同期低遅延推論と理解度を考慮したトレーニングを通じて、「知覚・判断・応答」のエンドツーエンドのループを実現する。
- •7つの基本能力と28のサブタスクをカバーする260万件のデータセット「StreamAudio-2M」と、能動的な音声介入能力を評価する「Proactive-Sound-Bench」が公開された。
シンガポール国立大学の研究チームが、リアルタイムの音声対話に特化した統合ストリーミングモデル「Audio-Interaction」を発表した。従来の大型音声言語モデル(LALM)は主にオフライン動作や単一の音声認識タスクに限定されていたが、本モデルは連続的なリアルタイムの音声指示追従を実現している。システムは「知覚・判断・応答」のループ構造を採用しており、環境音とユーザーの指示を同時に処理して即時の文脈に応じた反応を可能にする。
この機能を実現するため、研究チームは「SoundFlow」フレームワークを構築した。これはデータの構築からトレーニング、展開までを統合的に管理する仕組みである。ストリーミングに適したデータ作成手法、理解度を重視した学習プロセス、そして非同期型の低遅延推論を組み合わせることで、ライブ環境でのシステム安定性を維持する。これらの技術により、入力される音声ストリームの意味内容に基づき、モデルが自律的に応答タイミングを判断できるようになった。
トレーニングと評価環境として、研究チームは7つの基本オーディオ能力と28のサブタスクを含む260万件のデータセット「StreamAudio-2M」を構築した。さらに、能動的な音声介入機能を測定するための「Proactive-Sound-Bench」も導入された。8つのベンチマークを用いた検証の結果、Audio-Interactionは従来の音声タスクの性能を維持しつつ、自動音声認識(ASR)や能動的なアシスタント機能など、従来のオフライン型LALMでは困難だった新機能を実現したことが示された。