AWS, 대규모 모델 추론 속도 및 효율성 대폭 강화
- •AWS LMI 컨테이너에 LMCache를 도입하여 첫 토큰 생성 시간(TTFT)을 최대 62% 단축했다.
- •새로운 EAGLE 투기적 디코딩 통합으로 미래 출력을 예측하며 토큰 생성 속도를 가속화했다.
- •DeepSeek, Mistral, Qwen 모델 지원 강화와 함께 LoRA 어댑터 호스팅 성능을 개선했다.
거대 AI 모델 배포 시 프롬프트 길이가 길어질수록 비용 부담이 커지는 것이 현실이다. 이에 Amazon Web Services(AWS)는 최신 LMI(Large Model Inference) 컨테이너 업데이트를 통해 이 문제를 정면으로 돌파했다. 이번 업데이트의 핵심은 이전 계산의 수학적 표현인 KV 캐싱 결과물을 저장하고 재사용하는 오픈소스 도구 'LMCache'다. 시스템이 반복되는 텍스트 블록을 식별해 RAM이나 NVMe 디스크 같은 빠른 저장 공간에서 불러오기 때문에, 모든 단어를 처음부터 다시 계산할 필요가 없다. 특히 동일한 문맥이 반복적으로 사용되는 코딩 어시스턴트나 문서 분석 도구에서 매우 효과적이다.
캐싱 기술 외에도 AWS는 'EAGLE 투기적 디코딩' 기술을 새롭게 통합했다. 이는 메인 모델이 배경에서 검증을 수행하는 동안 다음 단어를 미리 예측하여 응답 시간을 단축하는 지능적인 기법이다. 이러한 예측-검증 루프 덕분에 출력 품질을 유지하면서도 텍스트 생성 속도를 획기적으로 높일 수 있었다. 또한, 개발자가 커스텀 미세 조정 모델인 LoRA 어댑터를 관리하는 방식도 한층 효율적으로 개선되었다. 필요한 시점에만 모델을 로드하는 '지연 로딩(lazy loading)' 방식을 채택함으로써, 멀티 테넌트 배포 시 메모리 사용량과 초기 구동 시간을 크게 절감했다.
한편 DeepSeek v3.2 및 Mistral Large 3와 같은 최신 오픈소스 모델에 대한 지원이 확대되면서 고성능 AI 활용 문턱이 한층 낮아졌다. 실제로 특정 시나리오에서는 요청당 컴퓨팅 비용을 절반으로 줄일 수 있어, 기업들이 복잡한 AI 애플리케이션을 확장하기가 더욱 용이해졌다. 무엇보다 이번 출시를 통해 기술적 전문성이 부족한 기업들도 로우코드(low-code) 기반의 자동 설정을 통해 엔터프라이즈급 속도와 효율성을 누릴 수 있게 된 점이 주목할 만하다.