아마존, 멀티 에이전트 AI로 결제 테스트 자동화
- •아마존 결제 팀이 SAARAM 시스템을 도입해 테스트 케이스 생성 시간을 1주일에서 단 몇 시간으로 단축했다.
- •멀티 에이전트 시스템은 Amazon Bedrock과 Strands Agents SDK를 활용해 복잡한 QA 워크플로우를 자동화한다.
- •전문가의 사고 방식을 모방한 설계를 통해 AI 환각을 최소화하고 테스트 범위를 획기적으로 개선했다.
아마존 결제 팀이 여러 개의 AI 에이전트 구성 요소를 활용해 소프트웨어 테스트를 자동화하는 정교한 시스템인 SAARAM을 출시했다. 기존에 품질 보증(QA) 엔지니어들은 테스트 케이스를 만들기 위해 일주일 내내 수동으로 문서를 분석해야 했다. 하지만 이제 Strands Agents SDK와 Amazon Bedrock 기반의 LLM을 활용해 단 몇 시간 만에 구체적이고 실행 가능한 테스트 시나리오를 생성한다. 수석 개발자인 Jayashree R(제야슈리 R)과 Fahim Surani(파힘 수라니)는 엔지니어들이 반복적인 문서 작업 대신 전략적 업무에 집중할 수 있도록 이 시스템을 설계했다. 이번 혁신은 개발진이 단순한 지시어 입력에서 벗어나 인간 중심의 아키텍처로 전환하면서 이루어졌다. AI를 하나의 단일 두뇌로 취급하는 대신, 테스트 과정을 인간 전문가의 사고 방식과 유사한 세부 단계로 분해했다. 여기에는 고객 여정 분석, 비즈니스 규칙 식별, 데이터 흐름 매핑 등이 포함된다. 이러한 모듈형 설계는 시스템이 지역별 결제 규정과 같은 복잡한 로직을 혼동하거나 잘못된 정보를 생성하는 환각 현상 없이 정확하게 이해하도록 돕는다. 현재 버전의 SAARAM은 특화된 에이전트 파이프라인을 가동 중이다. '지능형 게이트웨이'가 설계 도안이나 코드 저장소 같은 파일을 전문 '데이터 추출기'로 전달하면, '시각화 도구'가 가능한 모든 사용자 경로를 다이어그램으로 그려낸다. 이는 모델이 단일 결과물을 내놓게 하는 대신 특정 논리 단계를 거치도록 유도하는 정교한 프롬프트 엔지니어링을 통해 구현됐다. 마지막으로 시스템은 지식 증류 원리를 적용해 모든 정보를 구조화된 요약본으로 합성한다. 이를 통해 AI는 테스트 케이스를 작성하기 전 제품 요구사항에 대한 명확한 그림을 갖게 된다. 이 솔루션은 현재 아마존의 글로벌 스토어와 결제 조직 전반으로 확산되고 있다. 이는 신뢰할 수 있는 AI를 구축하는 데 있어 단순히 모델 크기를 키우는 것보다 인간의 논리 구조를 연구하는 것이 더 효과적임을 시사한다.