이 기사의 핵심 내용은?

마이크로소프트가 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2 모델을 새롭게 선보였다. 이번 신규 모델은 빠른 처리 속도와 합리적인 비용, 기업 수준의 안전성을 강조한다. 마이크로소프트 Foundry 생태계를 통해 개발자들이 즉시 활용할 수 있다.

마이크로소프트, 고성능 AI 모델 신규 라인업 'MAI' 발표

마이크로소프트가 'MAI' 브랜드 산하의 신규 모델 3종을 발표하며 AI 포트폴리오를 대폭 확장했다. 이번에 공개된 모델은 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2로, 개발자와 기업이 품질 저하 없이 속도와 경제성을 극대화할 수 있도록 설계되었다. 이 모델들은 전문적인 워크플로우 내에서 생성형 AI의 배포를 간소화하기 위한 플랫폼인 마이크로소프트 Foundry에 통합되어 제공된다.

플래그십 모델인 MAI-Transcribe-1은 뛰어난 음성 인식 정확도를 자랑한다. FLEURS와 같은 업계 표준 벤치마크에 따르면, 기존 Azure 서비스보다 2.5배 빠른 속도로 데이터를 처리하며 25개 주요 언어에서 낮은 단어 오류율을 기록했다. 이러한 처리 효율성은 콜센터나 방송 미디어처럼 대규모 음성 데이터를 실시간으로 처리해야 하는 조직에 필수적인 기능이다.

이와 함께 공개된 MAI-Voice-1은 사실적이고 감정이 풍부한 인간의 음성을 생성하는 데 특화되어 있다. 개발자는 이 모델을 활용해 장시간의 오디오 생성 중에도 고유한 화자의 정체성을 유지하는 대화형 음성 에이전트를 구축할 수 있다. 또한 1초 만에 60초 분량의 음성을 생성하는 뛰어난 확장성을 갖췄으며, 보안 가이드라인이 워크플로우에 내장되어 있어 안전한 음성 프로필 제작이 가능하다.

시각 분야에서는 MAI-Image-2가 이미지 생성 성능을 크게 개선했다. 이 모델은 Arena.ai 리더보드에서 검증된 성능을 바탕으로 이전 모델 대비 2배 빠른 출력 속도를 제공한다. 마케팅 및 디자인 분야의 전문가를 위해 피부 톤과 같은 미세한 시각적 요소나 이미지 내 텍스트 가독성을 정밀하게 제어할 수 있도록 설계되었다. 실제로 통신 그룹인 WPP와 같은 기업들이 이미 이를 도입하여 창의적인 제작 공정을 가속화하고 있다.

마이크로소프트는 이러한 모델들을 Foundry 생태계에 배치함으로써 '인본주의적 AI(Humanist AI)' 철학을 실천하고 있다. 이는 실용적이고 인간 중심적인 통신 패턴을 학습시키면서 동시에 기업 수준의 규정 준수를 보장하는 전략이다. 대학생들이 AI 업계를 관찰함에 있어, 이번 발표는 범용 AI에서 특정 비즈니스 문제를 해결하기 위한 효율적이고 전문화된 모델로 기술의 흐름이 전환되고 있음을 잘 보여준다.