GPT Audio는 OpenAI의 멀티모달 오디오 모델로, 대화 완성 API를 통해 음성 대 음성 상호작용을 기본적으로 지원합니다. 음성 인식과 음성 합성을 별도 모델로 연결하는 기존 파이프라인과 달리, 단일 모델에서 음성을 직접 처리하고 생성하여 지연 시간이 짧고 자연스러운 음성을 출력하며, 어조와 감정 같은 미묘한 뉘앙스도 잘 보존합니다.
상용 모델
학습 완료일
2023-10-01
이 AI가 학습을 마친 날짜입니다. 이후 발생한 사건이나 정보는 알지 못할 수 있습니다.
입력 형식 → 출력 형식
이 AI에게 전달할 수 있는 정보 유형과, AI가 생성할 수 있는 결과물 유형을 나타냅니다.
처리용량
128KIN16KOUT
한 번의 요청에서 AI가 한꺼번에 읽고 처리할 수 있는 최대 분량입니다. 숫자가 클수록 긴 문서나 대화를 처리할 수 있습니다.
개별 비용(백만 글자)
$2.5IN$10OUT
이 AI를 직접 연동해 사용할 때 발생하는 비용입니다. 텍스트 100만 단위(토큰)당 달러 기준으로 표시됩니다.