Voxtral Mini TTS는 2026년 3월에 출시된 Mistral의 첫 번째 텍스트 음성 변환(TTS) 모델로, 음성 인식 제품군인 Voxtral의 생성형 대응 모델입니다. 약 40억 개의 파라미터를 가진 이 모델은 저지연 음성 에이전트 및 스트리밍 애플리케이션을 위해 설계되었으며, 4,096 토큰의 컨텍스트 윈도우와 원시 오디오 출력 기능을 제공합니다. Voxtral은 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원합니다. 또한 단 3초 분량의 참조 오디오만으로 제로샷 음성 복제가 가능하며, 별도의 운율 태그 없이도 억양, 리듬, 감정 표현을 자연스럽게 유지합니다. 벤치마크 테스트에서는 ElevenLabs Flash v2.5를 상대로 68.4%의 선호도를 기록했습니다.
상용 모델