マイクロソフト、高性能な新AIモデル群「MAI」を発表
- •「MAI-Transcribe-1」「MAI-Voice-1」「MAI-Image-2」の3モデルを公開。
- •高速処理と競争力のある価格、企業向け安全性を重視。
- •Microsoft Foundryのエコシステムを通じて開発者に提供開始。
マイクロソフトは、MAIブランドを冠した3つの新しいAIモデルを発表し、AIポートフォリオを大幅に拡充した。これらのモデルは、品質を維持しつつ、速度と費用対効果を優先する開発者や企業向けに設計されている。各ツールは、プロフェッショナルなワークフローにおける生成AIの導入を効率化するためのプラットフォーム、Microsoft Foundryに直接統合された。
シリーズの主力である「MAI-Transcribe-1」は、高精度な音声認識を実現する。FLEURSなどの業界標準ベンチマークによれば、25の主要言語においてWord Error Rate(単語誤り率)を低減し、従来のAzureサービスと比較して2.5倍の高速処理を達成した。これは、コールセンターや放送メディアなど、大量の音声データをリアルタイムで扱う組織にとって不可欠な効率性である。
続いて「MAI-Voice-1」は、人間らしく感情豊かな音声生成に焦点を当てている。開発者はこのツールを利用することで、長時間の音声生成でも話者の個性を保持できる会話型エージェントを構築可能だ。1秒で60秒分の音声を生成するスケーラビリティに加え、安全なカスタム音声プロファイルの作成を可能にするガードレールも組み込まれている。
視覚分野では、「MAI-Image-2」が画像生成において大幅な性能向上を見せている。Arena.aiのリーダーボードでの成功に続き、前モデルと比較して出力速度が2倍に向上した。マーケティングやデザインの専門家向けに設計され、正確なスキントーンや画像内の判読可能なテキストなど、精密な視覚的ニュアンスの再現に注力している。WPPなどの企業がすでに活用を開始し、クリエイティブ制作の規模拡大に寄与している。
マイクロソフトは、これらをMicrosoft Foundryのエコシステムに位置づけることで「ヒューマニストAI」の哲学を強化している。このアプローチは、人間中心の実践的なコミュニケーションパターンでモデルを学習させつつ、企業レベルのコンプライアンスを保証するものだ。AI業界を注視する学生にとって、今回のリリースは汎用的なAIから、特定のビジネス課題を解決する専門化され効率的なモデルへのシフトという大きなトレンドを物語っている。