Boson AIが音声合成モデル「Higgs Audio v3」を公開
LMSYS
2026年6月5日 (金)
- •Boson AIが40億パラメータの会話型音声合成モデル「Higgs Audio v3」を公開し、100以上の言語に対応させた。
- •ベンチマークテストではSeed-TTS(1.11)やMiniMax-Multilingual(2.74)で単一桁のWER/CERを達成した。
- •SGLang-Omniフレームワークを採用し、感情やスタイルの制御を可能にする多段階のリアルタイム音声生成を実現した。
Boson AIは、会話型音声エージェント向けに設計された音声合成モデル「Higgs Audio v3」を発表した。本モデルは「Qwen3-4B」を基盤とし、テキストと音声のトークンを組み合わせて自然で表情豊かな音声を生成する。入力のストリームが増加しても話者のアイデンティティや感情を維持しつつ、文が完了する前に合成を開始するリアルタイム対話に最適化されている。対応言語は111にのぼり、Seed-TTSで1.11、CV3で4.41、MiniMax-Multilingualで2.74という宏平均WER/CERを記録した。
開発者は、入力テキストに埋め込まれた制御トークンを用いて、感情、話し方、速度、音高、間、音響効果(笑い声など)を調整できる。推論環境にはSGLang-Omniを採用し、演算パターンやメモリ要件が異なる多段階の生成パイプラインを管理する。このフレームワークは、階層的な制御プレーンとデータプレーンを介してGPUメモリの分離を維持し、各ステージでリソースを確保する。
さらに、前処理の融合やRadixAttentionキャッシュ技術により、音声クローニングの参照効率を向上させている。H100 GPU 1基を用いた性能試験では、同時接続16件において毎秒14.74リクエストを処理し、平均レイテンシは1079msを記録した。生成速度を示すaudio_s/sは61.84に達し、リアルタイムを上回る生成能力を確認している。現在、Docker経由で展開可能であり、ストリーミングやゼロショット音声クローニング、API連携をサポートしている。