GPT Audioは、OpenAIのマルチモーダル音声モデルで、チャット補完APIを通じて音声対音声のやり取りをネイティブに対応します。音声認識と音声合成を別々のモデルで繋げる従来のパイプラインとは異なり、単一のモデルで音声を直接処理・生成するため、低遅延で自然な音声を出力し、声のトーンや感情といった微妙なニュアンスも的確に再現します。
GPT Audioは、OpenAIのマルチモーダル音声モデルで、チャット補完APIを通じて音声対音声のやり取りをネイティブに対応します。音声認識と音声合成を別々のモデルで繋げる従来のパイプラインとは異なり、単一のモデルで音声を直接処理・生成するため、低遅延で自然な音声を出力し、声のトーンや感情といった微妙なニュアンスも的確に再現します。