GPT Audioは、OpenAIのマルチモーダル音声モデルで、チャット補完APIを通じて音声対音声のやり取りをネイティブに対応します。音声認識と音声合成を別々のモデルで繋げる従来のパイプラインとは異なり、単一のモデルで音声を直接処理・生成するため、低遅延で自然な音声を出力し、声のトーンや感情といった微妙なニュアンスも的確に再現します。
このAIが学習を終えた日付です。それ以降に起きた出来事や情報は知らない場合があります。
このAIに渡せる情報の種類と、AIが生成できる結果の種類を示しています。
1回のリクエストでAIが一度に読んで処理できる最大量です。数値が大きいほど、長い文書や会話を扱えます。
このAIを直接連携して使用する際にかかる費用です。テキスト100万単位(トークン)あたりのドル換算で表示されます。
費用を計算する