이 기사의 핵심 내용은?

Amazon SageMaker AI 비동기 추론에서 최대 128,000바이트의 인라인 페이로드 전송이 가능해졌다. 이번 업데이트로 API 호출 전 Amazon S3에 데이터를 업로드해야 했던 필수 절차가 삭제됐다. 단일 호출로 비동기 추론이 가능해져 지연 시간 감소와 운영 효율성 향상이 기대된다.

Amazon SageMaker AI, 인라인 페이로드 지원 추가

•Amazon SageMaker AI 비동기 추론에서 최대 128,000바이트의 인라인 페이로드 전송이 가능해졌다.
•이번 업데이트로 API 호출 전 Amazon S3에 데이터를 업로드해야 했던 필수 절차가 삭제됐다.
•단일 호출로 비동기 추론이 가능해져 지연 시간 감소와 운영 효율성 향상이 기대된다.

Amazon SageMaker AI는 2026년 6월 17일, 비동기 추론(Async Inference) 서비스에 인라인 요청 페이로드 지원 기능을 도입했다. 이를 통해 개발자는 InvokeEndpointAsync API 요청 본문에 직접 입력 데이터를 담아 전송할 수 있으며, 추론 작업 시작 전 Amazon S3에 페이로드를 업로드해야 했던 기존 번거로운 절차를 생략할 수 있게 됐다.

기존에는 비동기 워크플로우를 사용하려면 입력 페이로드를 S3 버킷에 먼저 업로드한 뒤, 해당 S3 객체 URI를 사용해 엔드포인트를 호출해야 했다. 이는 소규모 페이로드의 경우 불필요한 복잡성과 지연 시간을 발생시키는 원인이었다. 이제 새로운 Body 매개변수를 통해 요청당 최대 128,000바이트까지 원시 데이터를 직접 전달할 수 있다.

다만 이번 기능은 기존 InputLocation 방식과는 상호 배타적이므로 요청 시 둘 중 하나를 선택해야 한다. 결과값 처리 방식은 기존과 동일하게 S3 경로에 기록되지만, S3 클라이언트 프로비저닝이나 IAM s3:PutObject 권한 설정, 입력 데이터 수동 삭제 등 아키텍처 관리는 훨씬 간결해졌다.

이번 업데이트로 네트워크 왕복 횟수가 줄어 지연 시간이 개선되었으며, S3 입력 업로드 비용 절감과 함께 데이터 크기 및 검증 오류에 대한 즉각적인 피드백이 가능해졌다. 해당 기능은 IAD, ICN, SYD, FRA를 포함한 31개 상용 AWS 리전에서 사용할 수 있으며, 최신 버전의 AWS SDK for Python(Boto3)으로 업데이트해야 한다.

또한 이번 업데이트는 하위 호환성을 유지하도록 설계되어 기존 비동기 엔드포인트와 모델 컨테이너는 설정을 변경하지 않아도 정상적으로 작동한다. 128,000바이트를 초과하는 페이로드를 사용하거나 감사 기록을 위해 입력 데이터를 보관해야 하는 경우 기존의 S3 기반 InputLocation 방식을 그대로 활용하면 된다. 혼합된 워크로드를 관리하는 경우 페이로드 크기에 따라 인라인 방식과 S3 저장 방식 중 선택할 수 있도록 로직을 분기하는 것이 권장된다.

Amazon SageMaker AI는 2026년 6월 17일, 비동기 추론(Async Inference) 서비스에 인라인 요청 페이로드 지원 기능을 도입했다. 이를 통해 개발자는 InvokeEndpointAsync API 요청 본문에 직접 입력 데이터를 담아 전송할 수 있으며, 추론 작업 시작 전 Amazon S3에 페이로드를 업로드해야 했던 기존 번거로운 절차를 생략할 수 있게 됐다.

기존에는 비동기 워크플로우를 사용하려면 입력 페이로드를 S3 버킷에 먼저 업로드한 뒤, 해당 S3 객체 URI를 사용해 엔드포인트를 호출해야 했다. 이는 소규모 페이로드의 경우 불필요한 복잡성과 지연 시간을 발생시키는 원인이었다. 이제 새로운 Body 매개변수를 통해 요청당 최대 128,000바이트까지 원시 데이터를 직접 전달할 수 있다.

다만 이번 기능은 기존 InputLocation 방식과는 상호 배타적이므로 요청 시 둘 중 하나를 선택해야 한다. 결과값 처리 방식은 기존과 동일하게 S3 경로에 기록되지만, S3 클라이언트 프로비저닝이나 IAM s3:PutObject 권한 설정, 입력 데이터 수동 삭제 등 아키텍처 관리는 훨씬 간결해졌다.

이번 업데이트로 네트워크 왕복 횟수가 줄어 지연 시간이 개선되었으며, S3 입력 업로드 비용 절감과 함께 데이터 크기 및 검증 오류에 대한 즉각적인 피드백이 가능해졌다. 해당 기능은 IAD, ICN, SYD, FRA를 포함한 31개 상용 AWS 리전에서 사용할 수 있으며, 최신 버전의 AWS SDK for Python(Boto3)으로 업데이트해야 한다.

또한 이번 업데이트는 하위 호환성을 유지하도록 설계되어 기존 비동기 엔드포인트와 모델 컨테이너는 설정을 변경하지 않아도 정상적으로 작동한다. 128,000바이트를 초과하는 페이로드를 사용하거나 감사 기록을 위해 입력 데이터를 보관해야 하는 경우 기존의 S3 기반 InputLocation 방식을 그대로 활용하면 된다. 혼합된 워크로드를 관리하는 경우 페이로드 크기에 따라 인라인 방식과 S3 저장 방식 중 선택할 수 있도록 로직을 분기하는 것이 권장된다.