아마존, 자율형 AI 에이전트 평가 프레임워크 공개
- •아마존이 운영 환경을 단순 LLM 프롬프트 방식에서 목표 지향적인 자율 에이전트 체계로 전환한다.
- •다단계 추론, 도구 선택, 메모리 검색 등 창발적 행동을 측정하는 새로운 평가 프레임워크를 도입했다.
- •Amazon Bedrock AgentCore를 통해 에이전트의 성능, 안전성, 작업 완료율을 측정하는 자동화 도구를 제공한다.
생성형 AI 환경이 단순한 텍스트 생성을 넘어, 정적인 챗봇보다는 '디지털 직원'에 가까운 복잡한 에이전틱 AI 시스템으로 이동하고 있다. 실제로 아마존은 2025년부터 다양한 조직 내에 수천 개의 AI 에이전트를 배치하여 역동적이고 목표 지향적인 업무를 처리해 왔다고 밝혔다. 이들은 단순히 프롬프트에 답하는 전통적인 모델과 달리, 도구를 조율하고 문제를 반복적으로 해결하며 다단계 과업을 자율적으로 수행하도록 설계된 것이 특징이다.
이러한 시스템을 제대로 평가하기 위해서는 단순한 단어 정확도 확인보다 훨씬 정교한 접근법이 요구된다. 이에 따라 아마존의 새로운 프레임워크는 내부 작동 원리를 알 수 없는 블랙박스 테스트를 넘어 시스템 전체의 창발적 행동을 검토한다. 이는 에이전트가 적절한 도구를 선택하는지, 논리적인 사고 과정 (Chain-of-Thought)을 따르는지, 그리고 메모리에서 정보를 올바르게 추출하는지를 확인하는 것을 의미한다. 무엇보다 파운데이션 모델부터 의도 탐지 단계까지 평가 계층을 세분화함으로써 개발자가 시스템 오류 지점을 정확히 짚어낼 수 있도록 돕는다.
아마존 쇼핑 어시스턴트와 같은 실제 사례에서는 그 복잡성이 훨씬 커지기 마련이다. 에이전트가 상품 검색이나 주문 관리와 같은 작업을 수행하기 위해 수천 개의 기업용 API와 상호작용해야 하기 때문이다. 이를 해결하기 위해 아마존은 대규모 언어 모델을 활용해 에이전트가 도구 사용법을 이해하는 데 필요한 기술적 설명을 자동으로 생성한다. 결과적으로 이러한 자동화는 수개월이 소요되던 수동 엔지니어링 과정을 간소화했으며, 기업 규모에서도 에이전트의 높은 신뢰성과 비용 효율성을 보장하고 있다.