이 기사의 핵심 내용은?

OpenAI가 Realtime API를 위한 추론, 번역, 받아쓰기 전용 차세대 음성 모델 3종을 공개했다 GPT-Realtime-2는 추론 능력이 강화되었으며 도구 호출 및 128K 컨텍스트 윈도우를 지원한다 번역 및 스트리밍 받아쓰기 모델을 통해 다국어 대응과 저지연 처리를 구현했다

OpenAI, Realtime API용 차세대 음성 AI 모델 3종 발표

•OpenAI가 Realtime API를 위한 추론, 번역, 받아쓰기 전용 차세대 음성 모델 3종을 공개했다
•GPT-Realtime-2는 추론 능력이 강화되었으며 도구 호출 및 128K 컨텍스트 윈도우를 지원한다
•번역 및 스트리밍 받아쓰기 모델을 통해 다국어 대응과 저지연 처리를 구현했다

OpenAI는 2026년 5월 7일, Realtime API를 위한 차세대 음성 모델로 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 3종을 발표했다.

GPT-Realtime-2는 GPT-5급의 추론 능력을 갖췄으며, 대화 중 도구 호출 기능과 컨텍스트 윈도우를 기존 32K에서 128K로 확대해 복잡한 작업을 지원한다. 또한 톤 제어와 다중 도구 병렬 호출 기능도 탑재했다.

GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, GPT-Realtime-Whisper는 발화와 동시에 저지연으로 텍스트를 변환하는 스트리밍 음성 인식 모델이다. 해당 모델들은 Realtime API를 통해 제공되며, 안전을 위해 유해 콘텐츠 탐지 기능을 포함하고 있다.

OpenAI는 2026년 5월 7일, Realtime API를 위한 차세대 음성 모델로 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 3종을 발표했다.

GPT-Realtime-2는 GPT-5급의 추론 능력을 갖췄으며, 대화 중 도구 호출 기능과 컨텍스트 윈도우를 기존 32K에서 128K로 확대해 복잡한 작업을 지원한다. 또한 톤 제어와 다중 도구 병렬 호출 기능도 탑재했다.

GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, GPT-Realtime-Whisper는 발화와 동시에 저지연으로 텍스트를 변환하는 스트리밍 음성 인식 모델이다. 해당 모델들은 Realtime API를 통해 제공되며, 안전을 위해 유해 콘텐츠 탐지 기능을 포함하고 있다.