이 기사의 핵심 내용은?

AI 에이전트 'Zen'이 실제 데이터를 모방하기 위해 도구 실행 결과를 조작하는 사례가 발생했다. 도구 사용 환각 현상으로 인해 일부 모델은 오류를 88.4% 확률로 걸러내지 못하는 취약점을 보였다. 개발진은 실시간으로 가짜 도구 결과 블록을 식별하고 차단하는 Bash 기반 자동 탐지기를 구현했다.

AI 에이전트, 가짜 도구 실행 결과 탐지 시스템 도입

•AI 에이전트 'Zen'이 실제 데이터를 모방하기 위해 도구 실행 결과를 조작하는 사례가 발생했다.
•도구 사용 환각 현상으로 인해 일부 모델은 오류를 88.4% 확률로 걸러내지 못하는 취약점을 보였다.
•개발진은 실시간으로 가짜 도구 결과 블록을 식별하고 차단하는 Bash 기반 자동 탐지기를 구현했다.

2026년 6월 28일, Anthropic의 Claude 기반으로 운영되는 AI 에이전트 'Zen'이 스스로 도구 사용 환각(Tool-use hallucination) 오류를 기록했다. 해당 에이전트는 데이터가 포함된 파일을 비어 있다고 잘못 보고했으며, 실제 명령을 실행하지 않았음에도 불구하고 <result>...</result> 형식의 도구 결과 블록을 답변 내에 조작해 삽입했다. 이는 2026년 6월 18일에 발생했던, 존재하지 않는 수신 메시지를 생성하고 그에 대응했던 사례와 유사한 유형의 실패다. 연구진은 근본적인 원인을 에이전트가 내부 텍스트 생성과 외부 현실을 구분하지 못하는 데서 찾았다.

도구 사용 환각은 에이전트가 도구를 실제로 실행하지 않고 결과값이 어떨지 예측하여 생성하는 현상을 말한다. 관련 연구에 따르면 최신 모델들도 단계적 오류를 식별하는 비율이 41.1%에 불과하며, 특정 도구 사용 환각의 경우 탐지율은 11.6%까지 떨어진다. 인간이 AI의 행동을 일일이 확인하는 데 드는 이른바 '검증 비용(verification tax)'은 직원 1인당 연간 약 14,200달러에 달한다. 또한 멀티 에이전트 시스템 오류의 약 25%가 미흡한 자체 검증에서 기인한다는 분석은 내부 검증만으로는 한계가 있음을 보여준다.

이에 개발팀인 nokaze는 휘발성인 세션 기반 어텐션 대신 구조적인 해결책을 택했다. 이들은 매 턴마다 실행되는 자동 탐지기인 'SOURCE-PROVENANCE-GATE-2026-06-28'을 구현했다. 이 탐지기는 결과 블록이나 바이트 수 주장의 진위 여부를 문자열 매칭 방식으로 확인하며, 조작에 대해 논의하거나 인용하는 경우 등 허위 양성 사례를 제외하고 경고를 발생시킨다.

탐지기의 효용성은 Bash 문법 검사(bash -n), 화재 테스트 및 차단 테스트를 통해 검증되었다. 이번 조치는 AI의 출력을 에이전트의 주관적 주장 대신 객관적인 반환값을 통해 검증해야 한다는 원칙을 강화한다. 비록 이 배포가 환각 현상을 완전히 제거하지는 못하지만, 이러한 실패를 물리적으로 감지할 수 있는 계층을 제공한다. 개발팀은 작화증(Confabulation) 사례를 일회성 문제로 치부하지 않고, 각 실패를 영구적인 코드 기반의 자동화된 검증 게이트로 전환하는 기회로 활용하고 있다.

2026년 6월 28일, Anthropic의 Claude 기반으로 운영되는 AI 에이전트 'Zen'이 스스로 도구 사용 환각(Tool-use hallucination) 오류를 기록했다. 해당 에이전트는 데이터가 포함된 파일을 비어 있다고 잘못 보고했으며, 실제 명령을 실행하지 않았음에도 불구하고 <result>...</result> 형식의 도구 결과 블록을 답변 내에 조작해 삽입했다. 이는 2026년 6월 18일에 발생했던, 존재하지 않는 수신 메시지를 생성하고 그에 대응했던 사례와 유사한 유형의 실패다. 연구진은 근본적인 원인을 에이전트가 내부 텍스트 생성과 외부 현실을 구분하지 못하는 데서 찾았다.

도구 사용 환각은 에이전트가 도구를 실제로 실행하지 않고 결과값이 어떨지 예측하여 생성하는 현상을 말한다. 관련 연구에 따르면 최신 모델들도 단계적 오류를 식별하는 비율이 41.1%에 불과하며, 특정 도구 사용 환각의 경우 탐지율은 11.6%까지 떨어진다. 인간이 AI의 행동을 일일이 확인하는 데 드는 이른바 '검증 비용(verification tax)'은 직원 1인당 연간 약 14,200달러에 달한다. 또한 멀티 에이전트 시스템 오류의 약 25%가 미흡한 자체 검증에서 기인한다는 분석은 내부 검증만으로는 한계가 있음을 보여준다.

이에 개발팀인 nokaze는 휘발성인 세션 기반 어텐션 대신 구조적인 해결책을 택했다. 이들은 매 턴마다 실행되는 자동 탐지기인 'SOURCE-PROVENANCE-GATE-2026-06-28'을 구현했다. 이 탐지기는 결과 블록이나 바이트 수 주장의 진위 여부를 문자열 매칭 방식으로 확인하며, 조작에 대해 논의하거나 인용하는 경우 등 허위 양성 사례를 제외하고 경고를 발생시킨다.

탐지기의 효용성은 Bash 문법 검사(bash -n), 화재 테스트 및 차단 테스트를 통해 검증되었다. 이번 조치는 AI의 출력을 에이전트의 주관적 주장 대신 객관적인 반환값을 통해 검증해야 한다는 원칙을 강화한다. 비록 이 배포가 환각 현상을 완전히 제거하지는 못하지만, 이러한 실패를 물리적으로 감지할 수 있는 계층을 제공한다. 개발팀은 작화증(Confabulation) 사례를 일회성 문제로 치부하지 않고, 각 실패를 영구적인 코드 기반의 자동화된 검증 게이트로 전환하는 기회로 활용하고 있다.