AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
私たちのビジョン利用規約プライバシーお問い合わせ

Amazon SageMaker AI、インライン・ペイロードに対応

Amazon SageMaker AI、インライン・ペイロードに対応

AWS ML Blog
2026年6月18日 (木)
  • •Amazon SageMaker AIのAsync Inferenceが最大128,000バイトのインライン・ペイロードに対応した。
  • •今回のアップデートにより、API呼び出し前にAmazon S3へ入力データをアップロードする必要がなくなった。
  • •単一の非同期推論リクエストが可能となり、推論のレイテンシと運用負荷が軽減される。
  • •Amazon SageMaker AIのAsync Inferenceが最大128,000バイトのインライン・ペイロードに対応した。
  • •今回のアップデートにより、API呼び出し前にAmazon S3へ入力データをアップロードする必要がなくなった。
  • •単一の非同期推論リクエストが可能となり、推論のレイテンシと運用負荷が軽減される。

Amazon SageMaker AIは2026年6月17日、Async Inference(非同期推論)サービスにおいて、インラインでのリクエスト・ペイロード対応を開始した。開発者はInvokeEndpointAsync APIのボディ内に直接入力データを送信できるため、推論タスク開始前にデータをAmazon S3にアップロードするという従来の制約が撤廃される。

これまでの非同期ワークフローは、入力データをAmazon S3バケットへアップロードし、そのオブジェクトURIを用いてエンドポイントを呼び出すという2段階のプロセスを必須としていた。この手法は小さなペイロードを扱う際に冗長な複雑さとレイテンシを生んでいたが、新設されたBodyパラメータでは最大128,000バイトの直接入力を受け付ける。

なお、本機能は既存のInputLocationメソッドとは排他的であり、リクエストごとにいずれかを選択する必要がある。結果の出力先はこれまで通りAmazon S3であるが、入力用のS3クライアント構築やIAMのs3:PutObject権限付与、および古いオブジェクトの手動削除といった運用が不要となり、アーキテクチャが簡素化される。

この変更により、ネットワーク通信の往復が削減されることでレイテンシが向上し、入力アップロードに伴うS3のPUT料金も不要となる。また、サイズ超過やバリデーションエラーの即時検知も可能だ。本機能はIAD、ICN、SYD、FRAを含む31の商用AWSリージョンで利用可能であり、AWS SDK for Python(Boto3)を最新版へ更新する必要がある。

既存の非同期エンドポイントやモデルコンテナへの影響はなく、後方互換性は維持されている。128,000バイトを超えるペイロードや、監査証跡として入力データの保存が必要なケースでは、引き続きS3ベースのInputLocationメソッドを利用する必要がある。同社は、ペイロードサイズに応じてインライン方式とS3ストレージを動的に選択する分岐ロジックの実装を推奨している。

Amazon SageMaker AIは2026年6月17日、Async Inference(非同期推論)サービスにおいて、インラインでのリクエスト・ペイロード対応を開始した。開発者はInvokeEndpointAsync APIのボディ内に直接入力データを送信できるため、推論タスク開始前にデータをAmazon S3にアップロードするという従来の制約が撤廃される。

これまでの非同期ワークフローは、入力データをAmazon S3バケットへアップロードし、そのオブジェクトURIを用いてエンドポイントを呼び出すという2段階のプロセスを必須としていた。この手法は小さなペイロードを扱う際に冗長な複雑さとレイテンシを生んでいたが、新設されたBodyパラメータでは最大128,000バイトの直接入力を受け付ける。

なお、本機能は既存のInputLocationメソッドとは排他的であり、リクエストごとにいずれかを選択する必要がある。結果の出力先はこれまで通りAmazon S3であるが、入力用のS3クライアント構築やIAMのs3:PutObject権限付与、および古いオブジェクトの手動削除といった運用が不要となり、アーキテクチャが簡素化される。

この変更により、ネットワーク通信の往復が削減されることでレイテンシが向上し、入力アップロードに伴うS3のPUT料金も不要となる。また、サイズ超過やバリデーションエラーの即時検知も可能だ。本機能はIAD、ICN、SYD、FRAを含む31の商用AWSリージョンで利用可能であり、AWS SDK for Python(Boto3)を最新版へ更新する必要がある。

既存の非同期エンドポイントやモデルコンテナへの影響はなく、後方互換性は維持されている。128,000バイトを超えるペイロードや、監査証跡として入力データの保存が必要なケースでは、引き続きS3ベースのInputLocationメソッドを利用する必要がある。同社は、ペイロードサイズに応じてインライン方式とS3ストレージを動的に選択する分岐ロジックの実装を推奨している。

原文(英語)を読む·2026年6月17日
#sagemaker#async inference#aws#inference#cloud infrastructure