LLM을 최종 보안 판단자로 사용하는 것에 대한 경고
- •보안 전문가 브라이언 홀은 AI 에이전트의 최종 승인 권한을 LLM에 부여해서는 안 된다고 경고했다.
- •모델을 보안 판단자로 사용할 경우 에이전트와 동일한 취약점을 공유하므로 보안상 매우 위험하다.
- •홀은 프로덕션 환경의 일관성과 감사 가능성을 확보하기 위해 결정론적이고 규칙 기반의 승인 체계를 권장한다.
AARM 보안 그룹 소속인 브라이언 홀(Brian Hall)은 개발자가 AI 에이전트의 최종 승인 권한을 결정하는 데 LLM을 사용해서는 안 된다고 주장한다. 현재 업계에서는 에이전트의 도구 호출을 검토하기 위해 또 다른 모델을 감시자로 배치하는 이른바 'LLM-judge' 방식이 유행하고 있다. 하지만 홀은 이 방식이 근본적인 결함을 안고 있다고 지적한다. 모델은 여전히 프롬프트 인젝션이나 사회 공학적 공격에 취약하기 때문이다. 만약 공격자가 에이전트를 속일 수 있다면, 유사한 확률적 추론 메커니즘을 공유하는 판단자 모델 또한 기만할 가능성이 매우 높다.
보안 취약성 외에도 LLM의 비결정론적 특성은 미션 크리티컬한 운영 환경에서 치명적인 약점이 된다. 모델은 샘플링을 통해 동일한 입력값에도 다른 결과를 출력할 수 있는데, 이는 보안 판단이 상황에 따라 유동적일 수 있음을 의미한다. 이러한 일관성 결여는 기존의 엄격한 허용 또는 차단 정책을 실행하는 규칙 기반 접근 제어 방식과 달리 시스템의 감사, 디버깅, 신뢰성을 불가능하게 만든다. 결정론적 규칙은 언어 모델이 보장할 수 없는 예측 가능한 동작과 신뢰할 수 있는 감사 추적을 제공한다.
홀은 모델을 보안 아키텍처에서 완전히 배제해야 한다는 입장은 아니다. LLM은 이상 징후를 탐지하거나 민감한 텍스트를 분류하고 의심스러운 호출 패턴을 식별하는 데 탁월한 성능을 발휘한다. 대신 그는 모델의 역할을 자문 수준으로 제한하는 계층형 보안 전략을 제안한다. 데이터베이스 삭제나 금융 자산 이동과 같은 민감한 작업의 최종 승인 권한은 반드시 결정론적이고 규칙 기반의 시스템에 있어야 한다. 이러한 분리를 통해 최종 관문은 에이전트의 교묘한 언변을 통하지 않는 안정적이고 투명한 집행 체계를 갖추게 된다. 홀은 이 철학을 구현하기 위해 모델의 추론 경로 외부에서 허용 및 차단 결정을 내리는 오픈소스 프로젝트 Faramesh를 개발했다.