Google、70言語対応のリアルタイム音声翻訳モデルを発表
- •Google、70言語対応の音声翻訳モデル「Gemini 3.5 Live Translate」発表
- •ストリーミング処理により会話に追従し、数秒遅れで翻訳音声を生成
- •アプリ、Google Meet、APIへ順次提供し多言語コミュニケーションを支援
Googleは2026年6月9日(米国時間)、ほぼリアルタイムの音声対音声翻訳を実現する新モデル「Gemini 3.5 Live Translate」を発表した。同モデルは70以上の言語に対応し、ストリーミング処理によって話者のイントネーションや話す速度を反映した翻訳音声を生成する。従来の翻訳システムでは話者が発話を終えるのを待つ必要があったが、本モデルは会話の流れに追従し、発話から数秒遅れで別言語の音声を返す仕組みを採用している。
一般ユーザー向けには、AndroidおよびiOS版のGoogle翻訳アプリを通じて順次展開される。Android端末向けには、通話のようにスマートフォンを耳に当てることで翻訳音声を受話口から聞く「listening mode」も新たに実装された。これにより、周囲に内容を知られたくない環境やヘッドホン非装着時でも翻訳利用が可能となる。また、Google Meetにおいても、対応言語数が従来の5言語から70言語へと大幅に拡充され、今月中より一部のGoogle Workspaceビジネス顧客向けにプライベートプレビューとして提供が開始される。
開発者に対しては、Gemini Live APIおよびGoogle AI Studioを通じたパブリックプレビューが提供される。モデルコード「gemini-3.5-live-translate-preview」を使用し、翻訳された音声およびテキストの両方を出力可能である。既に配車サービスのGrabなどが、旅行者とドライバー間のコミュニケーション支援としてテストを行っている。なお、生成音声にはAI生成コンテンツを識別する電子透かし技術「SynthID」が埋め込まれ、安全性と検証可能性を確保している。
一方で、技術的な制約も明示されている。長い無音後の急な音声変化や、複数話者が同時に話す際の音声の一貫性維持、非ネイティブアクセントや急な言語切り替え時の検出精度については課題が残る。Gemini 3 Proを基盤モデルとして採用した本技術は、今後個人用途のみならず、会議、授業、カスタマーサポートといった業務システム領域における言語基盤として広範な活用が期待されている。