AI 에이전트의 사고 정체, '템플릿 붕괴' 현상의 원인 규명
- •LLM 에이전트에서 기존 지표로는 포착되지 않는 '템플릿 붕괴' 현상 발견
- •상호 정보량 기반의 새로운 추론 품질 추적 방식 제안
- •신호 대 잡음비(SNR) 인식 필터링으로 계획 및 코딩 과제 성능 대폭 개선
자율형 AI 에이전트는 여러 단계의 상호작용을 통해 작업을 수행하도록 설계된 시스템으로, 주로 강화학습을 통해 학습된다. 전통적으로 이러한 에이전트의 안정성을 측정할 때는 엔트로피를 사용해 왔다. 엔트로피는 에이전트의 추론 선택지가 얼마나 다양하고 예측 불가능한지를 나타내는 척도이다.
그러나 최근 연구진은 이 방식에 심각한 결함이 있음을 밝혀냈다. 바로 '템플릿 붕괴'라 불리는 현상이다. 이는 에이전트가 엔트로피 지표상으로는 정상적이고 다양한 행동을 하는 것처럼 보이지만, 실제로는 고정된 템플릿을 무비판적으로 반복하는 상태를 의미한다. 즉, 입력된 정보의 맥락을 이해하는 대신 흉내만 내는 '능력의 환각'에 빠지는 것이다.
연구팀은 RAGEN-2를 통해 이를 진단할 새로운 전략을 제시했다. 단일 입력 내 다양성만을 측정하는 엔트로피에서 벗어나, 입력에 따라 에이전트의 사고가 어떻게 변화하는지 측정하는 상호 정보량을 도입한 것이다. 이들은 이를 통해 에이전트가 문제를 해결하고 있는지, 아니면 단순히 미리 짜여진 연기를 수행하는지 구별하는 엄격한 시험대를 마련했다.
또한 연구팀은 학습 과정에서의 신호 대 잡음비에 주목했다. 보상 신호가 약하거나 일관되지 않으면, 모델은 특정 입력에 최적화된 경로를 찾기보다 일반적인 패턴에 의존하게 된다. 이때 모델의 안정을 위해 도입된 수학적 제약 조건들이 오히려 고유한 추론 능력을 억제하는 '잡음'으로 작용하게 된다.
이를 해결하기 위해 개발된 '신호 대 잡음비 인식 필터링'은 강력하고 명확한 학습 신호를 제공하는 데이터를 선별한다. 이 방식을 적용하자 계획 수립, 수학적 추론, 웹 탐색 및 코딩 과제 전반에서 성능이 비약적으로 향상되었다. 결과적으로 현재 멀티턴 LLM 에이전트의 불안정성은 구조적 결함이라기보다, 강화학습 과정에서 신호를 선별하는 평가 방식의 한계에서 기인한다는 점이 증명되었다.