OpenAI, 실시간 음성 상호작용의 차세대 모델 공개
- •OpenAI, 개발자용 실시간 음성 모델 Realtime-2, Translate, Whisper 3종 출시
- •GPT-Realtime-2, 128K Context Window 및 복합적 음성 에이전트 추론 능력 도입
- •70개 이상의 입력 언어 지원 및 저지연 다국어 실시간 대화 번역 제공
인간과 컴퓨터의 상호작용 방식이 기존의 텍스트 중심 인터페이스에서 음성 우선 모델로 빠르게 변화하고 있다. OpenAI는 최근 개발자가 더욱 자연스러운 디지털 비서를 구현할 수 있도록 지원하는 새로운 음성 모델 제품군을 API를 통해 출시했다. 이는 기계적인 반응을 넘어 뉘앙스, 망설임, 자연스러운 대화 복구 능력을 갖춘 대화형 파트너를 지향한다.
이번 발표의 핵심인 GPT-Realtime-2는 최신 텍스트 모델 수준의 추론 능력을 실시간 음성 환경에 결합했다. 기존 모델이 단절된 단답형 대화에 머물렀다면, 새로운 모델은 대화의 흐름을 유연하게 유지한다. 특히 대화 도중 끼어드는 상황을 매끄럽게 처리하고, 생각 중임을 알리는 신호를 활용하며 병렬 도구 호출을 지원해 사용자 경험을 크게 개선했다.
학생과 신입 개발자에게 가장 주목받는 기술은 바로 에이전트형 인공지능(Agentic AI) 기능이다. 이는 시스템이 단순히 응답하는 것을 넘어 작업을 자율적으로 수행한다는 의미이다. 128,000 토큰으로 확장된 Context Window는 복잡한 맥락을 긴 시간 동안 유지해야 하는 의료나 고객 지원 분야에서 필수적인 역할을 수행한다.
또한, 이번 업데이트는 글로벌 소프트웨어의 장벽이었던 언어 문제를 정면으로 다뤘다. 새롭게 선보인 GPT-Realtime-Translate 모델은 70개 이상의 입력 언어를 13개 언어로 실시간 번역한다. 이를 통해 언어의 제약 없이 정보를 주고받는 여행용 애플리케이션이나 다국어 고객 상담 서비스 등 다양한 실무 현장에서 활용될 수 있다.
마지막으로 GPT-Realtime-Whisper는 스트리밍 방식의 음성-텍스트 변환(STT) 성능을 비약적으로 끌어올렸다. 오디오 입력과 동시에 실시간 자막을 생성하거나 회의록을 작성하는 등 동기화 작업이 정교해졌다. 이는 소프트웨어가 지난 40년간 키보드 입력에 최적화되었던 것처럼, 이제는 우리의 음성에 완벽히 반응하는 '음성 네이티브' 인터넷 시대로 접어들었음을 시사한다.