Voxtral Mini TTSは、2026年3月にリリースされたMistral初のテキスト読み上げ(TTS)モデルであり、音声認識ファミリーであるVoxtralの生成型対応モデルです。約40億のパラメータを持つこのモデルは、低遅延の音声エージェントやストリーミングアプリケーション向けに設計されており、4,096トークンのコンテキストウィンドウとRAWオーディオ出力を備えています。Voxtralは英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語に対応しています。また、わずか3秒の参照音声からゼロショットで音声クローンを作成でき、明示的な韻律タグなしでイントネーション、リズム、感情表現を維持します。比較テストでは、ElevenLabs Flash v2.5に対して68.4%の支持率を獲得しました。
商用モデル