구글, 자연스러운 음성 AI 'Gemini 3.1 Flash Live' 공개
Google DeepMind
2026년 3월 27일 (금)
- •구글이 지연 시간을 대폭 줄이고 어조 이해력을 개선하여 자연스러운 음성 대화가 가능한 Gemini 3.1 Flash Live를 출시했다.
- •해당 모델은 ComplexFuncBench Audio에서 90.8%의 점수를 기록하며 다단계 Function calling 작업에서 이전 모델들을 압도하는 성능을 입증했다.
- •다국어 지원 강화를 통해 Search Live 서비스를 200개국으로 확대하고, 오디오 보안을 위해 SynthID 디지털 워터마킹을 적용했다.
구글은 음성 우선 AI에 필요한 속도와 미세한 뉘앙스에 최적화된 모델인 Gemini 3.1 Flash Live를 출시하며 실시간 상호작용의 경계를 넓히고 있다. 사용자의 말과 AI의 응답 사이의 지연 시간을 획기적으로 줄임으로써, 마치 사람과 대화하는 듯한 자연스러운 리듬을 구현했다. 단순히 단어를 처리하는 수준을 넘어 음조나 속도와 같은 음향 신호를 파악하며, 이를 통해 사용자의 좌절이나 혼란을 감지하고 상황에 맞춰 어조를 조절할 수 있다.
개발자와 기업 측면에서 고도화된 기능은 복잡한 작업 수행의 신뢰성을 크게 높였다. 모델은 실제 대화에서 흔히 발생하는 불규칙한 방해 요소 속에서도 다단계 지침을 따르거나 문제를 해결하기 위한 프로그래밍 명령인 Function calling을 수행하는 데 탁월한 능력을 발휘한다. 이러한 견고함은 전문 오디오 벤치마크의 높은 점수로 증명되었으며, 정교한 고객 경험 에이전트나 핸즈프리 코딩 환경을 위한 실질적인 도구로서의 가치를 입증했다.
기술적 성능 외에도 구글은 안전성과 글로벌 확장성에도 주력하고 있다. 모델이 생성하는 모든 오디오 조각에는 보이지 않는 디지털 워터마킹 기술인 SynthID가 포함되어, AI가 생성한 콘텐츠를 식별함으로써 허위 정보 유포를 방지한다. 또한 고유의 다국어 처리 능력을 바탕으로 Search Live 서비스를 200여 개국으로 확대하여, 전 세계 사용자들이 모국어로 유연한 멀티모달 대화를 나눌 수 있도록 지원한다.