이 기사의 핵심 내용은?

아티피셜 어낼리시스가 자체 보이스 에이전트 데이터셋인 'AA-AgentTalk'를 포함한 AA-WER v2.0을 정식 출시했다. 정제된 VoxPopuli 및 Earnings22 데이터셋을 활용해 단어 오류율(WER)을 최대 5.6%까지 대폭 개선했다. ElevenLabs Scribe v2가 2.3%의 WER을 기록하며 구글의 Gemini 3 Pro를 제치고 성능 차트 1위에 등극했다.

아티피셜 어낼리시스, 차세대 음성 인식 정확도 벤치마크 공개

•아티피셜 어낼리시스가 자체 보이스 에이전트 데이터셋인 'AA-AgentTalk'를 포함한 AA-WER v2.0을 정식 출시했다.
•정제된 VoxPopuli 및 Earnings22 데이터셋을 활용해 단어 오류율(WER)을 최대 5.6%까지 대폭 개선했다.
•ElevenLabs Scribe v2가 2.3%의 WER을 기록하며 구글의 Gemini 3 Pro를 제치고 성능 차트 1위에 등극했다.

아티피셜 어낼리시스가 현대적인 AI 활용 환경을 반영하여 음성 인식(STT) 벤치마크 제품군을 대폭 개편한 AA-WER v2.0을 선보였다. 기존 벤치마크가 주로 의회 연설과 같은 격식 있는 녹음 자료에 의존했다면, 새 버전은 보이스 에이전트와의 상호작용을 정밀하게 모델링한 자체 데이터셋인 'AA-AgentTalk'를 도입한 점이 특징이다. 특히 기업들이 고객 서비스에 AI를 적극적으로 도입하는 추세인 만큼, 정형화된 공공 낭독물과는 확연히 다른 자연스러운 대화 패턴과 다양한 억양을 반영하는 것이 무엇보다 중요해졌기 때문이다.

또한 이번 업데이트는 VoxPopuli와 Earnings22 데이터셋의 정제된 전사 데이터를 함께 공개하며 데이터의 무결성 확보에 집중했다. 연구팀은 모델 성능 측정의 기준이 되는 그라운드 트루스(정답)를 수동으로 일일이 수정하여, 모델이 오디오를 정확히 인식했음에도 기존 전사 데이터의 오류로 인해 부당하게 감점받던 요소를 제거했다. 그 결과 모델 출력값과 원본 오디오를 직접 비교해 인식 오류를 추적하는 표준 지표인 단어 오류율(WER)이 눈에 띄게 감소하며 평가의 신뢰도를 높였다.

성능 분석 결과에서는 범용 AI 모델에 도전하는 특화 모델들의 약진이 두드러졌다. 현재 ElevenLabs Scribe v2가 종합 2.3%의 오류율을 기록하며 전사 정확도 부문에서 현재 기술 수준인 SOTA를 달성해 벤치마크 선두를 달리고 있다. 아울러 이번 릴리스에는 오픈소스 텍스트 정규화 도구가 포함되어 '7:00pm'과 '7pm' 같은 사소한 표기 차이를 무시할 수 있게 되었으며, 이에 따라 평가는 스타일 선호도가 아닌 순수한 언어적 정확도에 초점을 맞출 수 있게 됐다.

아티피셜 어낼리시스가 현대적인 AI 활용 환경을 반영하여 음성 인식(STT) 벤치마크 제품군을 대폭 개편한 AA-WER v2.0을 선보였다. 기존 벤치마크가 주로 의회 연설과 같은 격식 있는 녹음 자료에 의존했다면, 새 버전은 보이스 에이전트와의 상호작용을 정밀하게 모델링한 자체 데이터셋인 'AA-AgentTalk'를 도입한 점이 특징이다. 특히 기업들이 고객 서비스에 AI를 적극적으로 도입하는 추세인 만큼, 정형화된 공공 낭독물과는 확연히 다른 자연스러운 대화 패턴과 다양한 억양을 반영하는 것이 무엇보다 중요해졌기 때문이다.

또한 이번 업데이트는 VoxPopuli와 Earnings22 데이터셋의 정제된 전사 데이터를 함께 공개하며 데이터의 무결성 확보에 집중했다. 연구팀은 모델 성능 측정의 기준이 되는 그라운드 트루스(정답)를 수동으로 일일이 수정하여, 모델이 오디오를 정확히 인식했음에도 기존 전사 데이터의 오류로 인해 부당하게 감점받던 요소를 제거했다. 그 결과 모델 출력값과 원본 오디오를 직접 비교해 인식 오류를 추적하는 표준 지표인 단어 오류율(WER)이 눈에 띄게 감소하며 평가의 신뢰도를 높였다.

성능 분석 결과에서는 범용 AI 모델에 도전하는 특화 모델들의 약진이 두드러졌다. 현재 ElevenLabs Scribe v2가 종합 2.3%의 오류율을 기록하며 전사 정확도 부문에서 현재 기술 수준인 SOTA를 달성해 벤치마크 선두를 달리고 있다. 아울러 이번 릴리스에는 오픈소스 텍스트 정규화 도구가 포함되어 '7:00pm'과 '7pm' 같은 사소한 표기 차이를 무시할 수 있게 되었으며, 이에 따라 평가는 스타일 선호도가 아닌 순수한 언어적 정확도에 초점을 맞출 수 있게 됐다.