이 기사의 핵심 내용은?

AWS가 이미지-텍스트 작업의 평가를 위해 Strands Evals SDK에 4종의 멀티모달 평가 도구를 새롭게 추가했다. 이 도구들은 모델 출력값을 원본 이미지와 직접 대조하여 환각 현상 및 사실 오류를 자동으로 검출한다. Anthropic의 Claude Sonnet 4.6을 기본 심판 모델로 채택하여 기업 환경에 최적화된 비용 효율과 정확도를 제공한다.

AWS, 이미지 분석용 멀티모달 평가 도구 출시

•AWS가 이미지-텍스트 작업의 평가를 위해 Strands Evals SDK에 4종의 멀티모달 평가 도구를 새롭게 추가했다.
•이 도구들은 모델 출력값을 원본 이미지와 직접 대조하여 환각 현상 및 사실 오류를 자동으로 검출한다.
•Anthropic의 Claude Sonnet 4.6을 기본 심판 모델로 채택하여 기업 환경에 최적화된 비용 효율과 정확도를 제공한다.

•AWS가 이미지-텍스트 작업의 평가를 위해 Strands Evals SDK에 4종의 멀티모달 평가 도구를 새롭게 추가했다.
•이 도구들은 모델 출력값을 원본 이미지와 직접 대조하여 환각 현상 및 사실 오류를 자동으로 검출한다.
•Anthropic의 Claude Sonnet 4.6을 기본 심판 모델로 채택하여 기업 환경에 최적화된 비용 효율과 정확도를 제공한다.

Amazon Web Services(AWS)가 이미지-텍스트 결과물의 검증을 자동화하기 위해 Strands Evals 소프트웨어 개발 키트(SDK) 내에 4종의 멀티모달 평가 도구를 출시했다. 이는 문서 추출, 차트 해석, 스크린샷 요약 등 시각적 처리 작업에서 발생하는 오류를 겨냥한 것으로, 기존 텍스트 기반 평가로는 탐지하기 어려웠던 환각 현상이나 정보 불일치를 찾아낸다. 가트너(Gartner)는 2024년 10% 미만인 엔터프라이즈 소프트웨어의 멀티모달 도입률이 2030년에는 80%에 달할 것으로 전망하며, 이에 따라 자동화된 품질 평가 체계의 필요성이 커지고 있다.

새로 도입된 평가 도구는 전체 품질(Overall Quality), 정확성(Correctness), 충실성(Faithfulness), 지시 이행(Instruction Following)으로 구성된다. 각 도구는 원본 이미지와 질의, 모델의 응답을 함께 분석하여 점수와 진단 결과물을 산출한다. 전체 품질은 1~5점의 리커트 척도로 평가하며, 나머지 항목은 이진법 형식의 합격 여부를 판정한다. 또한 정답지(Gold Standard)와 비교하는 참조 기반 모드와 정답지가 없는 환경을 위한 참조 없는 모드를 모두 지원하여 개발자가 기존 워크플로우에 쉽게 통합할 수 있도록 설계했다.

AWS 팀의 테스트 결과, 텍스트 전용 설명보다 멀티모달 모델을 직접 심판으로 활용할 때 인간의 평가와 더 높은 일치도를 보이는 것으로 나타났다. 심판 모델로는 정확도와 비용, 지연 시간을 균형 있게 고려하여 Amazon Bedrock상의 Claude Sonnet 4.6이 기본값으로 선정되었다. 연구진은 모델이 점수를 매기기 전 논리적 근거를 먼저 출력하도록 했을 때 평가 신뢰도가 크게 향상되었다고 밝혔다. 이 평가 도구들은 현재 Strands Evals 프레임워크 내에서 배포 가능하며, 디버깅 및 지속적 통합 파이프라인의 효율성을 높이는 데 활용된다.

Amazon Web Services(AWS)가 이미지-텍스트 결과물의 검증을 자동화하기 위해 Strands Evals 소프트웨어 개발 키트(SDK) 내에 4종의 멀티모달 평가 도구를 출시했다. 이는 문서 추출, 차트 해석, 스크린샷 요약 등 시각적 처리 작업에서 발생하는 오류를 겨냥한 것으로, 기존 텍스트 기반 평가로는 탐지하기 어려웠던 환각 현상이나 정보 불일치를 찾아낸다. 가트너(Gartner)는 2024년 10% 미만인 엔터프라이즈 소프트웨어의 멀티모달 도입률이 2030년에는 80%에 달할 것으로 전망하며, 이에 따라 자동화된 품질 평가 체계의 필요성이 커지고 있다.

새로 도입된 평가 도구는 전체 품질(Overall Quality), 정확성(Correctness), 충실성(Faithfulness), 지시 이행(Instruction Following)으로 구성된다. 각 도구는 원본 이미지와 질의, 모델의 응답을 함께 분석하여 점수와 진단 결과물을 산출한다. 전체 품질은 1~5점의 리커트 척도로 평가하며, 나머지 항목은 이진법 형식의 합격 여부를 판정한다. 또한 정답지(Gold Standard)와 비교하는 참조 기반 모드와 정답지가 없는 환경을 위한 참조 없는 모드를 모두 지원하여 개발자가 기존 워크플로우에 쉽게 통합할 수 있도록 설계했다.

AWS 팀의 테스트 결과, 텍스트 전용 설명보다 멀티모달 모델을 직접 심판으로 활용할 때 인간의 평가와 더 높은 일치도를 보이는 것으로 나타났다. 심판 모델로는 정확도와 비용, 지연 시간을 균형 있게 고려하여 Amazon Bedrock상의 Claude Sonnet 4.6이 기본값으로 선정되었다. 연구진은 모델이 점수를 매기기 전 논리적 근거를 먼저 출력하도록 했을 때 평가 신뢰도가 크게 향상되었다고 밝혔다. 이 평가 도구들은 현재 Strands Evals 프레임워크 내에서 배포 가능하며, 디버깅 및 지속적 통합 파이프라인의 효율성을 높이는 데 활용된다.