Mistral, 소리의 속도로 받아쓰는 'Voxtral' 공개
- •Mistral이 오픈 가중치 모델과 API 기반 모델을 모두 포함한 Voxtral Transcribe 2를 출시했다.
- •Voxtral-Mini-4B-Realtime-2602 모델은 Apache-2.0 라이선스로 허깅페이스에서 자유롭게 이용 가능하다.
- •관리형 API는 화자 분리 및 컨텍스트 바이어싱 기능을 지원하며 시간당 약 0.18달러의 경쟁력 있는 가격을 제안한다.
Mistral AI가 실시간 음성 처리 분야의 비약적인 발전을 보여주는 차세대 오디오 전사(Transcription) 솔루션, Voxtral Transcribe 2를 전격 출시했다. 2025년 초 첫 발표에 이어 이번에는 로컬 환경 배포를 위한 오픈 가중치 모델과 기업용 관리형 API를 동시에 제공하는 이원화 전략을 선보였다. 이에 따라 개발자들은 자신의 하드웨어에서 데이터 주권을 완벽히 통제하거나, Mistral의 최적화된 클라우드 인프라를 활용해 서비스 확장성을 확보하는 것 중 하나를 유연하게 선택할 수 있게 되었다.
개발자 커뮤니티에서는 특히 오픈 가중치 모델인 Voxtral-Mini-4B-Realtime-2602에 주목하고 있다. Apache 2.0 라이선스가 적용된 이 모델은 커스텀 애플리케이션이나 자체 서버에 통합하기에 매우 용이하다는 장점이 있다. 실제로 초기 시연 결과, 별도의 클라우드 연결 없이도 웹어셈블리(WebAssembly)나 Django 같은 기술 전문 용어를 지연 시간 거의 없이 실시간으로 정확하게 텍스트로 변환해내는 성능을 입증했다.
편의성을 중시하는 사용자를 위한 'voxtral-mini-latest' API 모델은 더욱 고도화된 기능을 제공한다. 대표적으로 녹음 내용 속 여러 화자를 구분해내는 화자 분리 기능과, 특정 용어 혹은 고유 명사를 미리 입력해 인식률을 높이는 컨텍스트 바이어싱 기술이 포함됐다. 무엇보다 시간당 0.18달러라는 파격적인 가격을 책정한 Mistral은 성능과 비용 효율성이라는 두 마리 토끼를 잡으며 기존 음성 인식 시장의 선두 주자들을 강력하게 위협하고 있다.