AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기
  1. 오늘의 AI 소식
  2. Amazon SageMaker, OpenAI 호환 API 지원 개시

Amazon SageMaker, OpenAI 호환 API 지원 개시

Amazon SageMaker, OpenAI 호환 API 지원 개시

AWS ML Blog
2026년 5월 22일 (금)
  • •Amazon SageMaker AI가 실시간 모델 추론을 위한 OpenAI 호환 API를 새롭게 지원한다.
  • •개발자는 코드 수정 없이 기존 OpenAI SDK를 활용해 SageMaker상에서 모델을 호출할 수 있다.
  • •새로운 베어러 토큰 인증을 도입해 표준 AWS IAM 자격 증명을 통한 보안 접근을 간소화했다.
  • •Amazon SageMaker AI가 실시간 모델 추론을 위한 OpenAI 호환 API를 새롭게 지원한다.
  • •개발자는 코드 수정 없이 기존 OpenAI SDK를 활용해 SageMaker상에서 모델을 호출할 수 있다.
  • •새로운 베어러 토큰 인증을 도입해 표준 AWS IAM 자격 증명을 통한 보안 접근을 간소화했다.

Amazon SageMaker AI가 2026년 5월 20일 실시간 추론 엔드포인트를 위한 OpenAI 호환 API 지원을 시작했다. 이번 업데이트를 통해 개발자는 별도의 클라이언트 구현, 코드 재작성, SigV4 래퍼 없이도 표준 OpenAI SDK, LangChain, Strands Agents를 사용해 SageMaker에 호스팅된 모델을 호출할 수 있다. 서비스는 모든 추론 엔드포인트에서 /openai/v1 경로를 제공하며 스트리밍 응답을 포함한 표준 채팅 완성 요청을 지원한다.

이 기능으로 개발자는 전용 GPU 인스턴스를 활용해 다단계 에이전트 워크플로우를 자체 인프라에서 실행할 수 있다. 또한 인퍼런스 컴포넌트를 통해 단일 엔드포인트에 여러 모델을 호스팅하며 각 모델에 자원을 할당하고 통합 인터페이스로 관리할 수 있다. 이를 통해 팀은 엔드포인트 URL 변경만으로 파인튜닝된 오픈소스 모델을 기존 애플리케이션 로직에서 활용 가능하다.

보안 측면에서는 AWS 자격 증명을 사용해 최대 12시간 유효한 토큰을 생성하는 베어러 토큰 인증을 지원한다. SageMaker Python SDK는 정적 API 키 저장 없이 토큰을 생성하는 기능을 제공하며, 장기 실행 애플리케이션은 자동 새로고침 패턴을 권장한다. IAM 권한 설정 시 sagemaker:InvokeEndpoint 및 sagemaker:CallWithBearerToken이 필요하며 특정 엔드포인트 ARN으로 자원을 제한하는 것이 보안상 권장된다.

배포는 vLLM과 같은 딥러닝 컨테이너를 사용하여 구성한다. 엔드포인트가 InService 상태가 되면 OpenAI 클라이언트는 'https://runtime.sagemaker.<REGION>.amazonaws.com/endpoints/<ENDPOINT_NAME>/openai/v1' 형식의 기본 URL에 연결할 수 있다. 이 아키텍처는 SageMaker 엔드포인트를 표준 OpenAI 호환 추론 서비스의 대체제로 전환하여 기존 에이전트 프레임워크와의 통합을 단순화한다.

Amazon SageMaker AI가 2026년 5월 20일 실시간 추론 엔드포인트를 위한 OpenAI 호환 API 지원을 시작했다. 이번 업데이트를 통해 개발자는 별도의 클라이언트 구현, 코드 재작성, SigV4 래퍼 없이도 표준 OpenAI SDK, LangChain, Strands Agents를 사용해 SageMaker에 호스팅된 모델을 호출할 수 있다. 서비스는 모든 추론 엔드포인트에서 /openai/v1 경로를 제공하며 스트리밍 응답을 포함한 표준 채팅 완성 요청을 지원한다.

이 기능으로 개발자는 전용 GPU 인스턴스를 활용해 다단계 에이전트 워크플로우를 자체 인프라에서 실행할 수 있다. 또한 인퍼런스 컴포넌트를 통해 단일 엔드포인트에 여러 모델을 호스팅하며 각 모델에 자원을 할당하고 통합 인터페이스로 관리할 수 있다. 이를 통해 팀은 엔드포인트 URL 변경만으로 파인튜닝된 오픈소스 모델을 기존 애플리케이션 로직에서 활용 가능하다.

보안 측면에서는 AWS 자격 증명을 사용해 최대 12시간 유효한 토큰을 생성하는 베어러 토큰 인증을 지원한다. SageMaker Python SDK는 정적 API 키 저장 없이 토큰을 생성하는 기능을 제공하며, 장기 실행 애플리케이션은 자동 새로고침 패턴을 권장한다. IAM 권한 설정 시 sagemaker:InvokeEndpoint 및 sagemaker:CallWithBearerToken이 필요하며 특정 엔드포인트 ARN으로 자원을 제한하는 것이 보안상 권장된다.

배포는 vLLM과 같은 딥러닝 컨테이너를 사용하여 구성한다. 엔드포인트가 InService 상태가 되면 OpenAI 클라이언트는 'https://runtime.sagemaker.<REGION>.amazonaws.com/endpoints/<ENDPOINT_NAME>/openai/v1' 형식의 기본 URL에 연결할 수 있다. 이 아키텍처는 SageMaker 엔드포인트를 표준 OpenAI 호환 추론 서비스의 대체제로 전환하여 기존 에이전트 프레임워크와의 통합을 단순화한다.

원문 보기 (영어)·2026년 5월 20일
#sagemaker#openai#inference#api#vllm#bearer token#aws