AWS, Strands Agents를 위한 커스텀 LLM 통합 간소화
AWS ML Blog
2026년 3월 6일 (금)
- •AWS가 SageMaker 엔드포인트와 Strands Agents 간의 호환성 격차를 해소하기 위해 커스텀 모델 파서를 도입했다.
- •Llama 3.1 모델의 BYOC 배포를 자동화하기 위해 오픈소스 도구인 ml-container-creator를 활용한다.
- •커스텀 LlamaModelProvider 클래스를 통해 OpenAI 호환 응답 형식을 Bedrock Messages API 구조로 변환하여 원활한 통합을 지원한다.
Amazon SageMaker AI에서 대규모 언어 모델을 배포하는 기업들은 흔히 응답 형식의 불일치라는 기술적 장벽에 직면하곤 한다. SGLang이나 vLLM 같은 프레임워크는 주로 OpenAI와 호환되는 출력을 제공하는 반면, Strands Agents SDK는 Bedrock Messages API 형식을 요구하기 때문이다. 이러한 차이로 인해 개발자들은 선호하는 서빙 프레임워크를 사용할 때 수동 개입이 불가피했으며, 때로는 런타임 오류를 겪어야만 했다.
이에 AWS는 SageMakerAIModel 클래스를 확장한 커스텀 파서 계층을 구축하는 솔루션을 제시했다. 이 방식은 Llama 3.1 등에서 들어오는 데이터 스트림을 Strands가 기대하는 특정 구조로 매끄럽게 변환해준다. 특히 실시간 서버 전송 이벤트(SSE)를 처리하는 커스텀 스트림 메서드를 구현함으로써 메시지 내용 추출과 사용량 메타데이터 처리를 자동화하고, 에이전트와 모델 서버 간의 정확한 상호작용을 보장한다.
또한 AWS는 프로세스 효율화를 위해 Dockerfile과 배포 스크립트 생성을 자동화하는 오픈소스 도구인 ml-container-creator를 활용했다. 이러한 BYOC 전략은 기업이 비용 효율성과 규정 준수를 세밀하게 제어하면서도 깔끔한 에이전트 인터페이스를 유지할 수 있도록 돕는다. 그 결과, 인프라 선택권을 희생하지 않고도 특화된 모델을 정교한 대화형 AI 워크플로우에 통합할 수 있는 유연한 아키텍처가 마련되었다.