이 기사의 핵심 내용은?

AWS는 AI 에이전트의 추적 데이터에서 실패 원인을 자동으로 파악하는 Strands Evals SDK 진단 도구를 출시했다. 이 도구는 실패 유형을 9가지로 분류하고 인과 관계를 분석하여 근본 원인과 파생 증상을 구분해낸다. CI/CD 파이프라인과 통합되어 운영 환경의 에이전트에 대해 자동 진단 및 수정 제안을 제공한다.

AWS, AI 에이전트 실패 진단 자동화 도구 공개

•AWS는 AI 에이전트의 추적 데이터에서 실패 원인을 자동으로 파악하는 Strands Evals SDK 진단 도구를 출시했다.
•이 도구는 실패 유형을 9가지로 분류하고 인과 관계를 분석하여 근본 원인과 파생 증상을 구분해낸다.
•CI/CD 파이프라인과 통합되어 운영 환경의 에이전트에 대해 자동 진단 및 수정 제안을 제공한다.

•AWS는 AI 에이전트의 추적 데이터에서 실패 원인을 자동으로 파악하는 Strands Evals SDK 진단 도구를 출시했다.
•이 도구는 실패 유형을 9가지로 분류하고 인과 관계를 분석하여 근본 원인과 파생 증상을 구분해낸다.
•CI/CD 파이프라인과 통합되어 운영 환경의 에이전트에 대해 자동 진단 및 수정 제안을 제공한다.

Amazon Bedrock 사용자는 이제 새롭게 출시된 Strands Evals SDK의 진단 도구를 통해 AI 에이전트의 실패 과정을 자동화할 수 있다. 기존의 평가 지표는 목표 성공률이 85%에서 70%로 하락하는 것과 같이 실패 여부만 확인 가능했으나, 실패 원인이나 해결 방안을 제시하지 못했다. 새로운 탐지 파이프라인은 실행 추적 데이터를 단계별로 분석하여 실패를 식별하고 실행 가능한 권장 사항을 제공함으로써, 수동 진단에 소요되던 시간을 몇 시간에서 몇 분 단위로 단축했다.

진단 과정은 LLM 기반 분석을 통해 두 단계로 운영된다. 1단계에서는 환각, 오케스트레이션 오류, 잘못된 작업 등을 포함한 9가지 유형의 분류 체계에 따라 실패를 탐지한다. 이 과정에서 도구는 실행 추적 데이터 내 실패 지점을 특정하고 증거를 추출한다. 2단계에서는 근본 원인 분석을 수행하여 실패를 인과 관계 체인으로 연결한다. 이를 통해 실패를 1차, 2차, 3차 요인으로 분류함으로써 근본적인 문제와 후속 증상을 구분하며, 시스템 프롬프트 수정이 필요한지 도구 정의를 업데이트해야 하는지 구체적인 해결책을 제안한다.

개발자는 DiagnosisConfig 기능을 사용하여 이 진단 도구를 CI/CD 평가 파이프라인에 직접 통합할 수 있다. 두 가지 트리거 모드가 제공되는데, LLM 추론 비용을 절감하기 위해 테스트 실패 시에만 실행되는 ON_FAILURE 모드와 성공한 세션에서도 최적화되지 않은 동작을 식별하기 위해 항상 실행되는 ALWAYS 모드가 있다. 또한 SDK에 포함된 CloudWatchProvider를 통해 Amazon CloudWatch Logs에서 운영 추적 데이터를 직접 가져와 과거 데이터 분석도 가능하다. 이 탐지 도구는 프레임워크에 구애받지 않으며, LangChain이나 Strands Agents를 포함하여 OpenTelemetry 데이터를 내보내는 모든 시스템의 추적 데이터를 지원한다.

구현 시에는 신호의 정확도와 노이즈 사이의 균형을 맞추기 위해 중간(MEDIUM) 수준의 신뢰도 임계값으로 시작하는 것이 권장된다. 또한 1차 실패를 수정하면 파생되는 2차 및 3차 증상이 해결되는 경우가 많으므로 이를 우선순위로 두어야 한다. 해당 진단 도구는 Amazon Bedrock을 기반으로 분석을 수행하므로, 특히 파이프라인을 빈번하게 실행하도록 구성할 경우 AWS Cost Explorer를 통해 사용 비용을 모니터링해야 한다.

Amazon Bedrock 사용자는 이제 새롭게 출시된 Strands Evals SDK의 진단 도구를 통해 AI 에이전트의 실패 과정을 자동화할 수 있다. 기존의 평가 지표는 목표 성공률이 85%에서 70%로 하락하는 것과 같이 실패 여부만 확인 가능했으나, 실패 원인이나 해결 방안을 제시하지 못했다. 새로운 탐지 파이프라인은 실행 추적 데이터를 단계별로 분석하여 실패를 식별하고 실행 가능한 권장 사항을 제공함으로써, 수동 진단에 소요되던 시간을 몇 시간에서 몇 분 단위로 단축했다.

진단 과정은 LLM 기반 분석을 통해 두 단계로 운영된다. 1단계에서는 환각, 오케스트레이션 오류, 잘못된 작업 등을 포함한 9가지 유형의 분류 체계에 따라 실패를 탐지한다. 이 과정에서 도구는 실행 추적 데이터 내 실패 지점을 특정하고 증거를 추출한다. 2단계에서는 근본 원인 분석을 수행하여 실패를 인과 관계 체인으로 연결한다. 이를 통해 실패를 1차, 2차, 3차 요인으로 분류함으로써 근본적인 문제와 후속 증상을 구분하며, 시스템 프롬프트 수정이 필요한지 도구 정의를 업데이트해야 하는지 구체적인 해결책을 제안한다.

개발자는 DiagnosisConfig 기능을 사용하여 이 진단 도구를 CI/CD 평가 파이프라인에 직접 통합할 수 있다. 두 가지 트리거 모드가 제공되는데, LLM 추론 비용을 절감하기 위해 테스트 실패 시에만 실행되는 ON_FAILURE 모드와 성공한 세션에서도 최적화되지 않은 동작을 식별하기 위해 항상 실행되는 ALWAYS 모드가 있다. 또한 SDK에 포함된 CloudWatchProvider를 통해 Amazon CloudWatch Logs에서 운영 추적 데이터를 직접 가져와 과거 데이터 분석도 가능하다. 이 탐지 도구는 프레임워크에 구애받지 않으며, LangChain이나 Strands Agents를 포함하여 OpenTelemetry 데이터를 내보내는 모든 시스템의 추적 데이터를 지원한다.

구현 시에는 신호의 정확도와 노이즈 사이의 균형을 맞추기 위해 중간(MEDIUM) 수준의 신뢰도 임계값으로 시작하는 것이 권장된다. 또한 1차 실패를 수정하면 파생되는 2차 및 3차 증상이 해결되는 경우가 많으므로 이를 우선순위로 두어야 한다. 해당 진단 도구는 Amazon Bedrock을 기반으로 분석을 수행하므로, 특히 파이프라인을 빈번하게 실행하도록 구성할 경우 AWS Cost Explorer를 통해 사용 비용을 모니터링해야 한다.