이 기사의 핵심 내용은?

Google이 70개 언어를 지원하는 음성 통역 모델 'Gemini 3.5 Live Translate'를 발표했다. 스트리밍 처리를 통해 대화 속도를 따라가며 발화 수 초 뒤 통역 음성을 생성한다. 번역 앱, Google Meet, API를 통해 순차적으로 제공하며 다국어 소통을 지원할 계획이다.

Google, 70개 언어 실시간 음성 통역 모델 발표

•Google이 70개 언어를 지원하는 음성 통역 모델 'Gemini 3.5 Live Translate'를 발표했다.
•스트리밍 처리를 통해 대화 속도를 따라가며 발화 수 초 뒤 통역 음성을 생성한다.
•번역 앱, Google Meet, API를 통해 순차적으로 제공하며 다국어 소통을 지원할 계획이다.

Google은 2026년 6월 9일(미국 시간) 실시간 음성 대 음성 통역을 구현하는 신규 모델 'Gemini 3.5 Live Translate'를 공개했다. 이 모델은 70개 이상의 언어를 지원하며, 스트리밍 처리 기술을 활용해 화자의 억양과 말하는 속도까지 반영한 통역 음성을 생성한다. 기존 시스템과 달리 화자가 발화를 마칠 때까지 기다릴 필요 없이, 대화 흐름을 따라가며 발화 수 초 만에 다른 언어로 변환된 음성을 출력한다.

일반 사용자는 Android 및 iOS용 Google 번역 앱을 통해 해당 기능을 이용할 수 있다. 특히 Android 기기에는 통화처럼 스마트폰을 귀에 대고 통역 음성을 들을 수 있는 'listening mode'가 새로 도입됐다. 이는 주변에 내용을 노출하고 싶지 않거나 헤드폰이 없는 환경에서 유용하다. 또한 Google Meet의 지원 언어 수도 기존 5개에서 70개로 대폭 확대됐으며, 이달부터 일부 Google Workspace 비즈니스 고객을 대상으로 프라이빗 프리뷰가 시작된다.

개발자에게는 Gemini Live API와 Google AI Studio를 통해 퍼블릭 프리뷰가 제공된다. 모델 코드 'gemini-3.5-live-translate-preview'를 호출하면 번역된 음성과 텍스트를 모두 얻을 수 있다. 현재 차량 호출 서비스인 Grab 등이 여행객과 운전기사 간의 소통을 돕는 테스트를 진행 중이다. 생성된 모든 음성에는 AI 생성 콘텐츠를 식별하는 전자 워터마크 기술 'SynthID'가 적용되어 안전성과 검증 가능성을 보장한다.

기술적 한계도 존재한다. 긴 침묵 이후의 급격한 음성 변화, 다수 화자가 동시에 말할 때의 일관성 유지, 비원어민 억양이나 언어 전환 시의 감지 정확도 등은 해결해야 할 과제로 남아있다. Gemini 3 Pro를 기반으로 설계된 이 기술은 향후 개인 용도를 넘어 회의, 수업, 고객 지원 등 다양한 비즈니스 영역의 언어 인프라로 활용될 전망이다.

Google은 2026년 6월 9일(미국 시간) 실시간 음성 대 음성 통역을 구현하는 신규 모델 'Gemini 3.5 Live Translate'를 공개했다. 이 모델은 70개 이상의 언어를 지원하며, 스트리밍 처리 기술을 활용해 화자의 억양과 말하는 속도까지 반영한 통역 음성을 생성한다. 기존 시스템과 달리 화자가 발화를 마칠 때까지 기다릴 필요 없이, 대화 흐름을 따라가며 발화 수 초 만에 다른 언어로 변환된 음성을 출력한다.

일반 사용자는 Android 및 iOS용 Google 번역 앱을 통해 해당 기능을 이용할 수 있다. 특히 Android 기기에는 통화처럼 스마트폰을 귀에 대고 통역 음성을 들을 수 있는 'listening mode'가 새로 도입됐다. 이는 주변에 내용을 노출하고 싶지 않거나 헤드폰이 없는 환경에서 유용하다. 또한 Google Meet의 지원 언어 수도 기존 5개에서 70개로 대폭 확대됐으며, 이달부터 일부 Google Workspace 비즈니스 고객을 대상으로 프라이빗 프리뷰가 시작된다.

개발자에게는 Gemini Live API와 Google AI Studio를 통해 퍼블릭 프리뷰가 제공된다. 모델 코드 'gemini-3.5-live-translate-preview'를 호출하면 번역된 음성과 텍스트를 모두 얻을 수 있다. 현재 차량 호출 서비스인 Grab 등이 여행객과 운전기사 간의 소통을 돕는 테스트를 진행 중이다. 생성된 모든 음성에는 AI 생성 콘텐츠를 식별하는 전자 워터마크 기술 'SynthID'가 적용되어 안전성과 검증 가능성을 보장한다.

기술적 한계도 존재한다. 긴 침묵 이후의 급격한 음성 변화, 다수 화자가 동시에 말할 때의 일관성 유지, 비원어민 억양이나 언어 전환 시의 감지 정확도 등은 해결해야 할 과제로 남아있다. Gemini 3 Pro를 기반으로 설계된 이 기술은 향후 개인 용도를 넘어 회의, 수업, 고객 지원 등 다양한 비즈니스 영역의 언어 인프라로 활용될 전망이다.