이 기사의 핵심 내용은?

ServiceNow-AI가 121개 도구와 3개 기업 도메인을 아우르는 213개 시나리오의 EVA-Bench Data 2.0을 공개했다. 이번 데이터셋은 일관되고 재현 가능한 보이스 에이전트 평가를 위해 SyGra 파이프라인과 GPT-5.4를 활용했다. 다국어 지원 기능을 추가하고 전화번호나 이름 등 현지화된 데이터를 반영하여 평가 지표를 고도화했다.

ServiceNow-AI, 기업용 보이스 에이전트 평가 벤치마크 213개로 확장

•ServiceNow-AI가 121개 도구와 3개 기업 도메인을 아우르는 213개 시나리오의 EVA-Bench Data 2.0을 공개했다.
•이번 데이터셋은 일관되고 재현 가능한 보이스 에이전트 평가를 위해 SyGra 파이프라인과 GPT-5.4를 활용했다.
•다국어 지원 기능을 추가하고 전화번호나 이름 등 현지화된 데이터를 반영하여 평가 지표를 고도화했다.

•ServiceNow-AI가 121개 도구와 3개 기업 도메인을 아우르는 213개 시나리오의 EVA-Bench Data 2.0을 공개했다.
•이번 데이터셋은 일관되고 재현 가능한 보이스 에이전트 평가를 위해 SyGra 파이프라인과 GPT-5.4를 활용했다.
•다국어 지원 기능을 추가하고 전화번호나 이름 등 현지화된 데이터를 반영하여 평가 지표를 고도화했다.

ServiceNow-AI는 2026년 6월 4일 보이스 에이전트를 위한 벤치마크인 EVA-Bench Data 2.0을 발표했다. 이번 업데이트로 평가 시나리오는 약 4배 증가해 총 213개가 되었으며, 121개 도구를 활용한다. 또한 항공사 고객 서비스 관리(CSM), 기업 IT 서비스 관리(ITSM), 의료 분야 인사 서비스 제공(HRSD) 등 3가지 기업 도메인을 포함한다. 이 벤치마크는 보이스 에이전트가 도메인 특화 용어와 복잡한 워크플로우, 사용자 상호작용 패턴을 얼마나 잘 처리하는지 측정하는 데 초점을 맞췄다.

데이터셋에 포함된 모든 시나리오는 OpenAI의 GPT-5.4, 구글의 Gemini 3.1 Pro, 그리고 앤스로픽의 Claude Opus 4.6 등 세 가지 최신 모델을 통해 해결 가능성을 검증받았다. 각 시나리오는 그래프 기반 합성 데이터 생성 파이프라인인 SyGra를 통해 생성되었으며, 이를 통해 사용자 목표와 백엔드 데이터베이스, 예상 결과값 사이의 일관성을 확보했다. 이 공동 생성 프로세스는 존재하지 않는 케이스 ID나 계정 정보를 참조하는 등의 오류를 방지해 평가 신뢰도를 높였다.

EVA-Bench 2.0은 음성 우선 범위, 실제 기업 API 기반의 현실성, 단일 및 다중 의도와 공격적 통화를 포함한 시나리오 다양성, 인증 메커니즘 보정, 엄격한 재현성이라는 5가지 설계 원칙을 준수했다. 모든 시나리오는 정확히 하나의 해결 경로를 갖도록 설계되었으며, 자동 생성 후 정책 일관성과 시나리오 해결 가능성을 검증하기 위해 수차례의 수동 검토 과정을 거쳤다.

한편 ServiceNow-AI는 영어 위주였던 기존 환경을 넘어 다국어 확장 버전을 시연했다. 해당 확장판은 현지 사용자 이름, 이메일, 전화번호, 위치 식별자를 포함하여 언어와 문화적 다양성에 따른 성능 통찰력을 제공한다. 전체 데이터셋은 MIT 라이선스 하에 오픈소스로 공개되었으며, Hugging Face 데이터셋 라이브러리를 통해 봇 간 평가에 활용할 수 있다.

ServiceNow-AI는 2026년 6월 4일 보이스 에이전트를 위한 벤치마크인 EVA-Bench Data 2.0을 발표했다. 이번 업데이트로 평가 시나리오는 약 4배 증가해 총 213개가 되었으며, 121개 도구를 활용한다. 또한 항공사 고객 서비스 관리(CSM), 기업 IT 서비스 관리(ITSM), 의료 분야 인사 서비스 제공(HRSD) 등 3가지 기업 도메인을 포함한다. 이 벤치마크는 보이스 에이전트가 도메인 특화 용어와 복잡한 워크플로우, 사용자 상호작용 패턴을 얼마나 잘 처리하는지 측정하는 데 초점을 맞췄다.

데이터셋에 포함된 모든 시나리오는 OpenAI의 GPT-5.4, 구글의 Gemini 3.1 Pro, 그리고 앤스로픽의 Claude Opus 4.6 등 세 가지 최신 모델을 통해 해결 가능성을 검증받았다. 각 시나리오는 그래프 기반 합성 데이터 생성 파이프라인인 SyGra를 통해 생성되었으며, 이를 통해 사용자 목표와 백엔드 데이터베이스, 예상 결과값 사이의 일관성을 확보했다. 이 공동 생성 프로세스는 존재하지 않는 케이스 ID나 계정 정보를 참조하는 등의 오류를 방지해 평가 신뢰도를 높였다.

EVA-Bench 2.0은 음성 우선 범위, 실제 기업 API 기반의 현실성, 단일 및 다중 의도와 공격적 통화를 포함한 시나리오 다양성, 인증 메커니즘 보정, 엄격한 재현성이라는 5가지 설계 원칙을 준수했다. 모든 시나리오는 정확히 하나의 해결 경로를 갖도록 설계되었으며, 자동 생성 후 정책 일관성과 시나리오 해결 가능성을 검증하기 위해 수차례의 수동 검토 과정을 거쳤다.

한편 ServiceNow-AI는 영어 위주였던 기존 환경을 넘어 다국어 확장 버전을 시연했다. 해당 확장판은 현지 사용자 이름, 이메일, 전화번호, 위치 식별자를 포함하여 언어와 문화적 다양성에 따른 성능 통찰력을 제공한다. 전체 데이터셋은 MIT 라이선스 하에 오픈소스로 공개되었으며, Hugging Face 데이터셋 라이브러리를 통해 봇 간 평가에 활용할 수 있다.