이 기사의 핵심 내용은?

Mistral AI가 비상업적 용도의 오픈 웨이트 텍스트-음성 변환(TTS) 모델인 Voxtral을 출시했다. 40억 개의 파라미터를 가진 이 모델은 단 3초의 오디오 샘플만으로 음성 복제가 가능하다. Voxtral TTS는 실시간 대화형 에이전트를 위해 지연 시간을 최소화하도록 설계되었다.

Mistral AI, 오픈 웨이트 텍스트-음성 변환 모델 Voxtral 공개

•Mistral AI가 비상업적 용도의 오픈 웨이트 텍스트-음성 변환(TTS) 모델인 Voxtral을 출시했다.
•40억 개의 파라미터를 가진 이 모델은 단 3초의 오디오 샘플만으로 음성 복제가 가능하다.
•Voxtral TTS는 실시간 대화형 에이전트를 위해 지연 시간을 최소화하도록 설계되었다.

Mistral AI는 자사의 첫 텍스트-음성 변환 모델인 Voxtral TTS를 공개했다. Ministral 3B 아키텍처를 기반으로 구축된 40억 개의 파라미터 모델로, 일반 소비자용 하드웨어에서도 효율적으로 구동된다. 영어, 프랑스어, 힌디어를 포함한 9개 언어를 지원하며 CC BY-NC 4.0 라이선스에 따라 비상업적 연구 및 학술 목적으로 자유롭게 활용할 수 있다.

이 모델의 핵심은 제로샷 음성 복제 기능이다. 단 3초 분량의 오디오만으로 화자의 고유한 억양과 감정적 특성을 정교하게 모사한다. 실제로 인간 평가 테스트 결과, 다수의 블라인드 평가에서 ElevenLabs Flash v2.5 모델보다 우수한 성능을 보였다.

실시간 활용을 위해 설계된 이 시스템은 첫 오디오 생성까지 약 100밀리초가 소요된다. 사용자는 모델 크기를 줄여 메모리 효율을 높이는 Quantization 기술을 통해 로컬 환경에 직접 배포하거나, 상업적 용도로 Mistral API를 활용할 수 있다. 기술적으로는 의미론적 토큰 생성과 흐름 매칭을 결합한 하이브리드 방식을 채택하여 음성 내용과 스타일을 분리해 처리한다.

Mistral AI는 자사의 첫 텍스트-음성 변환 모델인 Voxtral TTS를 공개했다. Ministral 3B 아키텍처를 기반으로 구축된 40억 개의 파라미터 모델로, 일반 소비자용 하드웨어에서도 효율적으로 구동된다. 영어, 프랑스어, 힌디어를 포함한 9개 언어를 지원하며 CC BY-NC 4.0 라이선스에 따라 비상업적 연구 및 학술 목적으로 자유롭게 활용할 수 있다.

이 모델의 핵심은 제로샷 음성 복제 기능이다. 단 3초 분량의 오디오만으로 화자의 고유한 억양과 감정적 특성을 정교하게 모사한다. 실제로 인간 평가 테스트 결과, 다수의 블라인드 평가에서 ElevenLabs Flash v2.5 모델보다 우수한 성능을 보였다.

실시간 활용을 위해 설계된 이 시스템은 첫 오디오 생성까지 약 100밀리초가 소요된다. 사용자는 모델 크기를 줄여 메모리 효율을 높이는 Quantization 기술을 통해 로컬 환경에 직접 배포하거나, 상업적 용도로 Mistral API를 활용할 수 있다. 기술적으로는 의미론적 토큰 생성과 흐름 매칭을 결합한 하이브리드 방식을 채택하여 음성 내용과 스타일을 분리해 처리한다.