この記事の要点は？

Mistral AIが非商用利用向けのオープンウェイト音声合成モデル「Voxtral TTS」を発表した。 40億パラメータの同モデルは、わずか3秒の参照音声で音声クローン生成が可能である。 Voxtral TTSは、リアルタイム対話エージェント向けに低遅延なパフォーマンスを実現する。

Mistral AIがオープンウェイトの音声合成モデル「Voxtral」を公開

•Mistral AIが非商用利用向けのオープンウェイト音声合成モデル「Voxtral TTS」を発表した。
•40億パラメータの同モデルは、わずか3秒の参照音声で音声クローン生成が可能である。
•Voxtral TTSは、リアルタイム対話エージェント向けに低遅延なパフォーマンスを実現する。

Mistral AIが同社初となる音声合成モデル「Voxtral TTS」をリリースした。Ministral 3Bのアーキテクチャを基盤とするこの40億パラメータのシステムは、コンシューマー向けハードウェア上で効率的に動作するように設計されている。英語、フランス語、ヒンディー語を含む9言語に対応しており、研究や学術目的など非商用利用を条件とするCC BY-NC 4.0ライセンスの下で提供される。

本モデルの大きな特徴は、わずか3秒の参照音声だけで話者特有の抑揚や感情的なニュアンスを再現するゼロショット音声クローン機能にある。人間によるブラインドテストでは、ElevenLabs Flash v2.5を上回る評価を得た。リアルタイム利用を想定したシステムは、最初の音声出力までの時間が約100ミリ秒という低遅延を実現している。

ユーザーは量子化（モデルサイズを縮小してメモリ効率を高める手法）を行うことでモデルをローカル環境に展開できるほか、商用利用向けにMistral AIのAPIを通じたアクセスも可能だ。技術的には、音声の内容と声質を分離するセマンティックトークン生成とフローマッチングを組み合わせたハイブリッドアプローチが採用されている。

Mistral AIが同社初となる音声合成モデル「Voxtral TTS」をリリースした。Ministral 3Bのアーキテクチャを基盤とするこの40億パラメータのシステムは、コンシューマー向けハードウェア上で効率的に動作するように設計されている。英語、フランス語、ヒンディー語を含む9言語に対応しており、研究や学術目的など非商用利用を条件とするCC BY-NC 4.0ライセンスの下で提供される。

本モデルの大きな特徴は、わずか3秒の参照音声だけで話者特有の抑揚や感情的なニュアンスを再現するゼロショット音声クローン機能にある。人間によるブラインドテストでは、ElevenLabs Flash v2.5を上回る評価を得た。リアルタイム利用を想定したシステムは、最初の音声出力までの時間が約100ミリ秒という低遅延を実現している。

ユーザーは量子化（モデルサイズを縮小してメモリ効率を高める手法）を行うことでモデルをローカル環境に展開できるほか、商用利用向けにMistral AIのAPIを通じたアクセスも可能だ。技術的には、音声の内容と声質を分離するセマンティックトークン生成とフローマッチングを組み合わせたハイブリッドアプローチが採用されている。