Boson AI, 다국어 TTS 모델 'Higgs Audio v3' 공개
- •Boson AI가 40억 개의 파라미터를 갖추고 100개 이상의 언어를 지원하는 대화형 TTS 모델 Higgs Audio v3를 출시했다.
- •Higgs Audio v3는 Seed-TTS 1.11, MiniMax-Multilingual 2.74 등 주요 벤치마크에서 한 자릿수 WER/CER을 기록했다.
- •SGLang-Omni 프레임워크를 통해 실시간 다단계 음성 생성과 감정·스타일 제어 기능을 제공한다.
Boson AI가 대화형 음성 에이전트에 최적화된 텍스트 음성 변환(TTS) 모델 Higgs Audio v3를 공개했다. SGLang-Omni 추론 프레임워크 기반의 이 모델은 40억 파라미터 규모의 Qwen3-4B를 백본으로 사용하며, 텍스트와 오디오 토큰을 병렬 처리해 자연스럽고 표현력이 풍부한 음성을 생성한다. 특히 문장이 완성되기 전에도 합성을 시작하는 실시간 상호작용에 특화되어 있으며, 111개의 언어와 방언을 지원한다. 성능 측정 결과 Seed-TTS에서 1.11, CV3에서 4.41, MiniMax-Multilingual에서 2.74의 매크로 평균 WER/CER을 달성했다.
사용자는 입력 텍스트 내 제어 토큰을 활용해 감정, 화법, 속도, 음정, 일시 정지 및 효과음을 세밀하게 조정할 수 있다. SGLang-Omni는 각 단계별 연산 패턴과 메모리 요구 사항을 관리하는 파이프라인을 지원하며, CUDA Graph 친화적인 피드백 러너와 스트리밍 보코더 스케줄러를 통해 오디오 생성 지연 시간을 최소화한다.
최적화 기술로 전처리 융합, 배치 보코더 디코딩, RadixAttention 캐싱이 적용됐다. H100 1대에서 동시성 16 기준, 초당 14.74건의 처리량과 1079ms의 평균 지연 시간을 보였으며 실시간보다 빠른 61.84 audio_s/s의 속도를 기록했다. Higgs Audio v3는 Qwen3-Omni, Fish Audio S2-Pro와 동일한 인프라를 공유하며, Docker 배포, 스트리밍, 제로샷 음성 복제 및 API 연동을 지원한다.