OpenAI, Realtime API용 차세대 음성 AI 모델 3종 발표
Ledge AI
2026년 5월 11일 (월)
- •OpenAI가 Realtime API를 위한 추론, 번역, 받아쓰기 전용 차세대 음성 모델 3종을 공개했다
- •GPT-Realtime-2는 추론 능력이 강화되었으며 도구 호출 및 128K 컨텍스트 윈도우를 지원한다
- •번역 및 스트리밍 받아쓰기 모델을 통해 다국어 대응과 저지연 처리를 구현했다
OpenAI는 2026년 5월 7일, Realtime API를 위한 차세대 음성 모델로 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 3종을 발표했다.
GPT-Realtime-2는 GPT-5급의 추론 능력을 갖췄으며, 대화 중 도구 호출 기능과 컨텍스트 윈도우를 기존 32K에서 128K로 확대해 복잡한 작업을 지원한다. 또한 톤 제어와 다중 도구 병렬 호출 기능도 탑재했다.
GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, GPT-Realtime-Whisper는 발화와 동시에 저지연으로 텍스트를 변환하는 스트리밍 음성 인식 모델이다. 해당 모델들은 Realtime API를 통해 제공되며, 안전을 위해 유해 콘텐츠 탐지 기능을 포함하고 있다.