이 기사의 핵심 내용은?

DELEGATE-52 벤치마크 결과, 최상위 LLM도 20회 상호작용 후 문서의 25%를 손상시키는 것으로 나타났다. 연구진은 19개 모델을 대상으로 52개 영역에서 왕복 시뮬레이션 방식을 사용해 문서 무결성을 평가했다. 이러한 오류는 트랜스포머 아키텍처의 근본적인 한계에서 비롯되며, 에이전트 도구로도 해결되지 않았다.

LLM 위임 작업 중 문서 손상 위험 확인

•DELEGATE-52 벤치마크 결과, 최상위 LLM도 20회 상호작용 후 문서의 25%를 손상시키는 것으로 나타났다.
•연구진은 19개 모델을 대상으로 52개 영역에서 왕복 시뮬레이션 방식을 사용해 문서 무결성을 평가했다.
•이러한 오류는 트랜스포머 아키텍처의 근본적인 한계에서 비롯되며, 에이전트 도구로도 해결되지 않았다.

•DELEGATE-52 벤치마크 결과, 최상위 LLM도 20회 상호작용 후 문서의 25%를 손상시키는 것으로 나타났다.
•연구진은 19개 모델을 대상으로 52개 영역에서 왕복 시뮬레이션 방식을 사용해 문서 무결성을 평가했다.
•이러한 오류는 트랜스포머 아키텍처의 근본적인 한계에서 비롯되며, 에이전트 도구로도 해결되지 않았다.

LLM이 복잡하고 장기적인 작업을 위임받을 때 발생하는 '침묵의 문서 손상' 현상이 문서 무결성에 심각한 위험을 초래한다는 연구 결과가 나왔다. 연구진은 법률 문서, 파이썬 코드, 악보, 결정학 등 52개 전문 분야를 포괄하는 DELEGATE-52 벤치마크를 도입해 19개 모델이 연속적인 상호작용 속에서 문서 정확도를 어떻게 유지하는지 분석했다. 모델에게 특정 수정을 수행한 뒤 다시 복구하도록 하는 왕복 시뮬레이션 방식에서, 최상위 모델인 Gemini Pro, Claude Opus, GPT-5조차 20회 상호작용 후 25%의 콘텐츠를 손상시켰다. 성능이 낮은 모델은 최대 50%까지 자료가 훼손되기도 했다.

연구는 이러한 구조적 붕괴의 주요 원인으로 세 가지를 지목했다. 우선 오류가 순차적으로 누적되는 '전화기 놀이' 현상이다. 작은 국소적 실수가 시간이 지나며 거대한 퇴화로 이어진다. 또한 모델 성능에 따라 실패 유형이 갈리는데, 약한 모델은 실수로 내용을 삭제하는 반면, 고성능 LLM은 사실 정보를 그럴듯하게 조작하는 경향을 보인다. 후자의 경우 결과물이 정교해 탐지가 매우 어렵다. 끝으로 대형 문서나 불필요한 파일이 포함될 경우 발생하는 맥락 과부하로 인해 모델이 원본 준수 대신 추측성 로직에 의존하게 된다.

분야별로 보면 파이썬 소스 코드처럼 구조화된 영역에서는 정확도가 높았으나, 자연어 작업이나 복잡한 공간 서식에서는 일관된 논리 유지가 어려웠다. 연구진은 소프트웨어를 통해 자율적인 파일 관리를 수행하는 에이전트 도구를 도입해도 이 문제는 완화되지 않는다고 지적했다. 해당 손상은 트랜스포머 아키텍처 자체에서 기인하기 때문에, 현재의 에이전트 시스템은 감독 없는 문서 편집 작업에 사용하기에 부적합하다.

LLM이 복잡하고 장기적인 작업을 위임받을 때 발생하는 '침묵의 문서 손상' 현상이 문서 무결성에 심각한 위험을 초래한다는 연구 결과가 나왔다. 연구진은 법률 문서, 파이썬 코드, 악보, 결정학 등 52개 전문 분야를 포괄하는 DELEGATE-52 벤치마크를 도입해 19개 모델이 연속적인 상호작용 속에서 문서 정확도를 어떻게 유지하는지 분석했다. 모델에게 특정 수정을 수행한 뒤 다시 복구하도록 하는 왕복 시뮬레이션 방식에서, 최상위 모델인 Gemini Pro, Claude Opus, GPT-5조차 20회 상호작용 후 25%의 콘텐츠를 손상시켰다. 성능이 낮은 모델은 최대 50%까지 자료가 훼손되기도 했다.

연구는 이러한 구조적 붕괴의 주요 원인으로 세 가지를 지목했다. 우선 오류가 순차적으로 누적되는 '전화기 놀이' 현상이다. 작은 국소적 실수가 시간이 지나며 거대한 퇴화로 이어진다. 또한 모델 성능에 따라 실패 유형이 갈리는데, 약한 모델은 실수로 내용을 삭제하는 반면, 고성능 LLM은 사실 정보를 그럴듯하게 조작하는 경향을 보인다. 후자의 경우 결과물이 정교해 탐지가 매우 어렵다. 끝으로 대형 문서나 불필요한 파일이 포함될 경우 발생하는 맥락 과부하로 인해 모델이 원본 준수 대신 추측성 로직에 의존하게 된다.

분야별로 보면 파이썬 소스 코드처럼 구조화된 영역에서는 정확도가 높았으나, 자연어 작업이나 복잡한 공간 서식에서는 일관된 논리 유지가 어려웠다. 연구진은 소프트웨어를 통해 자율적인 파일 관리를 수행하는 에이전트 도구를 도입해도 이 문제는 완화되지 않는다고 지적했다. 해당 손상은 트랜스포머 아키텍처 자체에서 기인하기 때문에, 현재의 에이전트 시스템은 감독 없는 문서 편집 작업에 사용하기에 부적합하다.