이 기사의 핵심 내용은?

Flexible Training Plans를 통해 일정 기간 하드웨어를 예약하고 추론용 GPU 용량을 보장받을 수 있다. 모델의 은닉층에서 직접 다음 토큰을 예측하는 투기적 디코딩 기술인 EAGLE-3로 처리량을 개선했다. 하드웨어 활용도를 최적화하기 위해 수천 개의 저차원 적응(LoRA) 어댑터를 필요할 때마다 불러오는 동적 멀티 어댑터 기능을 지원한다.

Amazon SageMaker, 추론 효율 및 GPU 용량 대폭 강화

•Flexible Training Plans를 통해 일정 기간 하드웨어를 예약하고 추론용 GPU 용량을 보장받을 수 있다.
•모델의 은닉층에서 직접 다음 토큰을 예측하는 투기적 디코딩 기술인 EAGLE-3로 처리량을 개선했다.
•하드웨어 활용도를 최적화하기 위해 수천 개의 저차원 적응(LoRA) 어댑터를 필요할 때마다 불러오는 동적 멀티 어댑터 기능을 지원한다.

•Flexible Training Plans를 통해 일정 기간 하드웨어를 예약하고 추론용 GPU 용량을 보장받을 수 있다.
•모델의 은닉층에서 직접 다음 토큰을 예측하는 투기적 디코딩 기술인 EAGLE-3로 처리량을 개선했다.
•하드웨어 활용도를 최적화하기 위해 수천 개의 저차원 적응(LoRA) 어댑터를 필요할 때마다 불러오는 동적 멀티 어댑터 기능을 지원한다.

Amazon SageMaker AI가 생성형 AI 도입의 주요 장애물인 GPU 부족과 높은 추론 비용 문제를 해결하기 위해 인프라 업그레이드를 단행했다. 이번 업데이트의 핵심은 'Flexible Training Plans'를 추론 엔드포인트까지 확장한 것이다. 이에 따라 기업은 특정 GPU 인스턴스를 일정 기간 예약하여 사용할 수 있으며, 결과적으로 예측 불가능한 온디맨드 가용성 문제로 인해 프로젝트가 지연되는 리스크를 방지할 수 있게 됐다. 이는 프로젝트 예산 수립과 자원 관리를 더욱 예측 가능한 방향으로 전환하는 전략적인 변화로 평가받는다.

성능 측면에서는 투기적 디코딩의 고도화된 형태인 EAGLE-3를 도입해 지연 시간을 획기적으로 개선했다. EAGLE-3는 별도의 '초안(draft)' 모델에 의존해 다음 텍스트를 추측하는 기존 방식과 달리, 메인 모델 내부의 은닉층을 분석해 직접 토큰을 예측한다. 이러한 방식은 적응성이 매우 뛰어나며, 생성된 텍스트의 품질을 희생하지 않으면서도 데이터 처리량을 대폭 높이고 TTFT를 줄이는 성과를 거두었다.

또한 SageMaker는 동적 저차원 적응(LoRA) 어댑터 로딩 기능을 통해 멀티 테넌트 워크로드를 더욱 효율적으로 관리한다. 모든 커스텀 모델 버전을 메모리에 상주시키는 방식은 비용 부담이 매우 크지만, 새로운 시스템은 실제 호출이 발생할 때만 저장소에서 어댑터를 불러온다. 특히 CPU, GPU, 디스크를 아우르는 계층형 캐싱 전략을 구현함으로써 개발자는 단일 엔드포인트에서 수천 개의 개인화된 모델 변체를 운영할 수 있게 되었으며, 하드웨어 활용도를 극대화하는 동시에 운영 비용을 효과적으로 통제할 수 있다.

Amazon SageMaker AI가 생성형 AI 도입의 주요 장애물인 GPU 부족과 높은 추론 비용 문제를 해결하기 위해 인프라 업그레이드를 단행했다. 이번 업데이트의 핵심은 'Flexible Training Plans'를 추론 엔드포인트까지 확장한 것이다. 이에 따라 기업은 특정 GPU 인스턴스를 일정 기간 예약하여 사용할 수 있으며, 결과적으로 예측 불가능한 온디맨드 가용성 문제로 인해 프로젝트가 지연되는 리스크를 방지할 수 있게 됐다. 이는 프로젝트 예산 수립과 자원 관리를 더욱 예측 가능한 방향으로 전환하는 전략적인 변화로 평가받는다.

성능 측면에서는 투기적 디코딩의 고도화된 형태인 EAGLE-3를 도입해 지연 시간을 획기적으로 개선했다. EAGLE-3는 별도의 '초안(draft)' 모델에 의존해 다음 텍스트를 추측하는 기존 방식과 달리, 메인 모델 내부의 은닉층을 분석해 직접 토큰을 예측한다. 이러한 방식은 적응성이 매우 뛰어나며, 생성된 텍스트의 품질을 희생하지 않으면서도 데이터 처리량을 대폭 높이고 TTFT를 줄이는 성과를 거두었다.

또한 SageMaker는 동적 저차원 적응(LoRA) 어댑터 로딩 기능을 통해 멀티 테넌트 워크로드를 더욱 효율적으로 관리한다. 모든 커스텀 모델 버전을 메모리에 상주시키는 방식은 비용 부담이 매우 크지만, 새로운 시스템은 실제 호출이 발생할 때만 저장소에서 어댑터를 불러온다. 특히 CPU, GPU, 디스크를 아우르는 계층형 캐싱 전략을 구현함으로써 개발자는 단일 엔드포인트에서 수천 개의 개인화된 모델 변체를 운영할 수 있게 되었으며, 하드웨어 활용도를 극대화하는 동시에 운영 비용을 효과적으로 통제할 수 있다.