이 기사의 핵심 내용은?

연구진이 딥 리서치 에이전트의 추론 과정을 감사하기 위한 스팬 단위 오류 위치 파악 프레임워크를 개발했다. 새롭게 구축된 TELBench 벤치마크는 에이전트 작업 로그 내 오류를 평가할 수 있는 1,000개의 사례를 제공한다. 실험 결과 DRIFT 감사 프레임워크를 통해 최초 오류 탐지 정확도가 30%포인트 향상되었다.

연구용 AI 에이전트의 오류 탐지 프레임워크 개발

•연구진이 딥 리서치 에이전트의 추론 과정을 감사하기 위한 스팬 단위 오류 위치 파악 프레임워크를 개발했다.
•새롭게 구축된 TELBench 벤치마크는 에이전트 작업 로그 내 오류를 평가할 수 있는 1,000개의 사례를 제공한다.
•실험 결과 DRIFT 감사 프레임워크를 통해 최초 오류 탐지 정확도가 30%포인트 향상되었다.

•연구진이 딥 리서치 에이전트의 추론 과정을 감사하기 위한 스팬 단위 오류 위치 파악 프레임워크를 개발했다.
•새롭게 구축된 TELBench 벤치마크는 에이전트 작업 로그 내 오류를 평가할 수 있는 1,000개의 사례를 제공한다.
•실험 결과 DRIFT 감사 프레임워크를 통해 최초 오류 탐지 정확도가 30%포인트 향상되었다.

NJU-LINK Lab 연구진이 검색, 도구 사용, 증거 통합 등 장기 실행 작업을 수행하도록 설계된 딥 리서치 에이전트의 추론 과정 내 구체적인 오류 지점을 식별하는 새로운 프레임워크를 개발했다. 기존 평가 방식이 최종 답변의 성공 여부에만 의존했던 것과 달리, 이번 연구는 에이전트의 운영 궤적 중 신뢰할 수 없는 결과로 이어지는 정확한 구간을 찾아내는 스팬 단위 오류 위치 파악에 초점을 맞췄다. 연구진은 두 가지 에이전트 프레임워크와 3개의 백본 모델, 3개의 벤치마크에서 추출한 2,790개의 실제 에이전트 궤적 데이터셋을 구축했다. 이를 위해 원시 로그를 의미론적 단위로 변환하고 LLM 기반 전문가 검토를 거쳐 유해한 오류 구간을 주석으로 처리했으며, 최종적으로 오류 식별을 테스트하기 위한 1,000개 사례 규모의 TELBench 벤치마크를 생성했다.

이러한 신뢰성 문제를 해결하기 위해 제안된 DRIFT 프레임워크는 주장 중심 감사 시스템이다. DRIFT는 에이전트의 주장을 모니터링하고 작업 궤적 중에 수집된 증거 구간과 대조하여, 근거가 없거나 상충하는 주장이 답변 경로에서 어떻게 이탈하는지를 강조한다. 실험 결과에 따르면 DRIFT는 다양한 모델 제품군 전반에서 스팬 단위 오류 위치 파악 및 최초 오류 탐지 정확도를 최대 30%포인트까지 향상시켰다. 이 방식은 에이전트가 작동하는 방식을 프로세스 수준에서 조망하며, 무해한 노이즈와 실패한 검색, 그리고 실제 논리 오류를 구분한다. 각 주장이 어떤 증거에 의존하는지를 분리함으로써, 개발자가 에이전트가 잠재적으로 잘못된 결론을 내리기 전에 어디서, 왜 실패하는지 파악할 수 있는 구조화된 기록을 제공한다.

NJU-LINK Lab 연구진이 검색, 도구 사용, 증거 통합 등 장기 실행 작업을 수행하도록 설계된 딥 리서치 에이전트의 추론 과정 내 구체적인 오류 지점을 식별하는 새로운 프레임워크를 개발했다. 기존 평가 방식이 최종 답변의 성공 여부에만 의존했던 것과 달리, 이번 연구는 에이전트의 운영 궤적 중 신뢰할 수 없는 결과로 이어지는 정확한 구간을 찾아내는 스팬 단위 오류 위치 파악에 초점을 맞췄다. 연구진은 두 가지 에이전트 프레임워크와 3개의 백본 모델, 3개의 벤치마크에서 추출한 2,790개의 실제 에이전트 궤적 데이터셋을 구축했다. 이를 위해 원시 로그를 의미론적 단위로 변환하고 LLM 기반 전문가 검토를 거쳐 유해한 오류 구간을 주석으로 처리했으며, 최종적으로 오류 식별을 테스트하기 위한 1,000개 사례 규모의 TELBench 벤치마크를 생성했다.

이러한 신뢰성 문제를 해결하기 위해 제안된 DRIFT 프레임워크는 주장 중심 감사 시스템이다. DRIFT는 에이전트의 주장을 모니터링하고 작업 궤적 중에 수집된 증거 구간과 대조하여, 근거가 없거나 상충하는 주장이 답변 경로에서 어떻게 이탈하는지를 강조한다. 실험 결과에 따르면 DRIFT는 다양한 모델 제품군 전반에서 스팬 단위 오류 위치 파악 및 최초 오류 탐지 정확도를 최대 30%포인트까지 향상시켰다. 이 방식은 에이전트가 작동하는 방식을 프로세스 수준에서 조망하며, 무해한 노이즈와 실패한 검색, 그리고 실제 논리 오류를 구분한다. 각 주장이 어떤 증거에 의존하는지를 분리함으로써, 개발자가 에이전트가 잠재적으로 잘못된 결론을 내리기 전에 어디서, 왜 실패하는지 파악할 수 있는 구조화된 기록을 제공한다.