이 기사의 핵심 내용은?

Amazon SageMaker AI는 생성형 AI 모델의 시작 지연 시간을 최대 51% 단축하는 컨테이너 이미지 캐싱 기능을 도입했다. 이 새로운 기능은 확장 이벤트 발생 시 로컬 인스턴스에 이미지를 사전 캐싱하여 이미지 다운로드 시간을 제거한다. 컨테이너 캐싱은 별도의 설정이나 수정 없이 지원되는 가속기 인스턴스 유형에서 자동으로 작동한다.

Amazon SageMaker AI, 컨테이너 캐싱으로 모델 실행 속도 개선

•Amazon SageMaker AI는 생성형 AI 모델의 시작 지연 시간을 최대 51% 단축하는 컨테이너 이미지 캐싱 기능을 도입했다.
•이 새로운 기능은 확장 이벤트 발생 시 로컬 인스턴스에 이미지를 사전 캐싱하여 이미지 다운로드 시간을 제거한다.
•컨테이너 캐싱은 별도의 설정이나 수정 없이 지원되는 가속기 인스턴스 유형에서 자동으로 작동한다.

•Amazon SageMaker AI는 생성형 AI 모델의 시작 지연 시간을 최대 51% 단축하는 컨테이너 이미지 캐싱 기능을 도입했다.
•이 새로운 기능은 확장 이벤트 발생 시 로컬 인스턴스에 이미지를 사전 캐싱하여 이미지 다운로드 시간을 제거한다.
•컨테이너 캐싱은 별도의 설정이나 수정 없이 지원되는 가속기 인스턴스 유형에서 자동으로 작동한다.

Amazon SageMaker AI는 생성형 AI 애플리케이션의 시작 병목 현상을 해결하기 위해 컨테이너 이미지 캐싱 기능을 출시했다. 새로운 인스턴스에 컨테이너 이미지를 로컬로 사전 캐싱함으로써, 확장 시 Amazon Elastic Container Registry(Amazon ECR)에서 이미지를 가져올 필요가 없도록 개선했다. 이 최적화를 통해 생성형 AI 모델의 전체 시작 지연 시간은 최대 51% 감소하며, 단일 모델과 추론 구성 요소 기반 엔드포인트 모두에서 성능 향상을 제공한다.

확장 과정은 인스턴스 프로비저닝, 이미지 다운로드, 모델 아티팩트 다운로드, 서버 초기화의 4단계로 나뉜다. 그동안 vLLM이나 NVIDIA Triton과 같은 프레임워크를 사용하는 대형 생성형 AI 모델은 네트워크를 통해 대용량 이미지를 가져오는 데 많은 시간이 소요되었다. 캐싱 기능을 적용하면 이미지가 로컬에 있을 경우 이미지 다운로드 시간이 0초로 단축된다. 또한 네트워크 대역폭 점유를 방지하여 모델 아티팩트 다운로드 속도도 높인다. 실제로 ml.g6.2xlarge 인스턴스에서 Qwen3-8B 모델을 테스트한 결과, 전체 시작 지연 시간이 525초에서 258초로 단축되었다.

성능 향상 폭은 인스턴스 유형, 모델 및 이미지 크기에 따라 다르다. 초기 사용자들은 ml.g4dn.xlarge 및 ml.g5.2xlarge 인스턴스 등 다양한 구성에서 38%에서 65%에 이르는 P50 성능 개선을 보고했다. 보안 및 테넌트 격리를 위해 각 캐시는 특정 고객 엔드포인트 전용으로 운영되어 AWS 계정 간 데이터 공유가 발생하지 않는다. 캐시된 이미지를 사용할 수 없는 경우, 시스템은 자동으로 Amazon ECR에서 다운로드를 시도하여 배포 중단을 방지한다. 이 기능은 Amazon SageMaker AI 추론을 지원하는 모든 상용 AWS 리전에서 제공되며, 기존 컨테이너 이미지를 수정하거나 수동으로 활성화할 필요가 없다.

이번 기능은 Amazon SageMaker AI의 기존 확장 최적화 도구인 6배 빠른 확장 감지를 위한 분 단위 미만 CloudWatch 지표, 그리고 이미 실행 중인 인스턴스의 모델 복사를 최적화하는 데이터 캐싱 솔루션을 보완한다. 이 세 가지 기능을 결합하여 사용자는 더욱 빠르고 예측 가능한 자동 확장 응답을 얻을 수 있다. 컨테이너 캐싱은 자동으로 통합되어 생성형 AI 워크로드가 급격한 트래픽 증가에 대응할 수 있도록 가용성을 높이고 콜드 스타트 지연을 줄인다.

Amazon SageMaker AI는 생성형 AI 애플리케이션의 시작 병목 현상을 해결하기 위해 컨테이너 이미지 캐싱 기능을 출시했다. 새로운 인스턴스에 컨테이너 이미지를 로컬로 사전 캐싱함으로써, 확장 시 Amazon Elastic Container Registry(Amazon ECR)에서 이미지를 가져올 필요가 없도록 개선했다. 이 최적화를 통해 생성형 AI 모델의 전체 시작 지연 시간은 최대 51% 감소하며, 단일 모델과 추론 구성 요소 기반 엔드포인트 모두에서 성능 향상을 제공한다.

확장 과정은 인스턴스 프로비저닝, 이미지 다운로드, 모델 아티팩트 다운로드, 서버 초기화의 4단계로 나뉜다. 그동안 vLLM이나 NVIDIA Triton과 같은 프레임워크를 사용하는 대형 생성형 AI 모델은 네트워크를 통해 대용량 이미지를 가져오는 데 많은 시간이 소요되었다. 캐싱 기능을 적용하면 이미지가 로컬에 있을 경우 이미지 다운로드 시간이 0초로 단축된다. 또한 네트워크 대역폭 점유를 방지하여 모델 아티팩트 다운로드 속도도 높인다. 실제로 ml.g6.2xlarge 인스턴스에서 Qwen3-8B 모델을 테스트한 결과, 전체 시작 지연 시간이 525초에서 258초로 단축되었다.

성능 향상 폭은 인스턴스 유형, 모델 및 이미지 크기에 따라 다르다. 초기 사용자들은 ml.g4dn.xlarge 및 ml.g5.2xlarge 인스턴스 등 다양한 구성에서 38%에서 65%에 이르는 P50 성능 개선을 보고했다. 보안 및 테넌트 격리를 위해 각 캐시는 특정 고객 엔드포인트 전용으로 운영되어 AWS 계정 간 데이터 공유가 발생하지 않는다. 캐시된 이미지를 사용할 수 없는 경우, 시스템은 자동으로 Amazon ECR에서 다운로드를 시도하여 배포 중단을 방지한다. 이 기능은 Amazon SageMaker AI 추론을 지원하는 모든 상용 AWS 리전에서 제공되며, 기존 컨테이너 이미지를 수정하거나 수동으로 활성화할 필요가 없다.

이번 기능은 Amazon SageMaker AI의 기존 확장 최적화 도구인 6배 빠른 확장 감지를 위한 분 단위 미만 CloudWatch 지표, 그리고 이미 실행 중인 인스턴스의 모델 복사를 최적화하는 데이터 캐싱 솔루션을 보완한다. 이 세 가지 기능을 결합하여 사용자는 더욱 빠르고 예측 가능한 자동 확장 응답을 얻을 수 있다. 컨테이너 캐싱은 자동으로 통합되어 생성형 AI 워크로드가 급격한 트래픽 증가에 대응할 수 있도록 가용성을 높이고 콜드 스타트 지연을 줄인다.