에이전트형 AI의 복합적 보안 탈옥 위험 규명
- •CLAIM-30 연구는 에이전트형 AI가 개별 단계는 안전하더라도 복합적인 작업 수행 과정을 통해 보안 규정을 위반할 수 있음을 입증했다.
- •전체 작업 궤적을 평가하는 게이트웨이가 기존 단계별 보안 검사로는 탐지 불가능한 세 가지 유형의 보안 탈옥을 성공적으로 차단했다.
- •실험 결과, AI 보안을 위해서는 전체 궤적 평가와 데이터 계보 추적이 필수적인 핵심 요소임이 확인됐다.
CLAIM-30은 에이전트형 AI에서 발생하는 복합적 탈옥(Compositional escape) 문제를 다룬다. 이는 개별 작업은 안전 규정을 준수하지만, 이들이 결합된 전체 순서가 보안 정책을 위반하는 현상을 의미한다. 해당 프로젝트는 결제 리다이렉트나 불법적인 데이터 축적처럼 전체 작업 궤적에서만 나타나는 위반 사례는 기존의 단계별 보안 게이트웨이로는 탐지할 수 없음을 증명했다.
새로 작성된 75개의 작업 환경에서 실험한 결과, 전체 궤적을 평가하는 게이트웨이는 금지된 조합 결합, 파생된 보호 데이터의 단계적 전송, 임계값 축적 위반 등 세 가지 유형의 탈옥을 차단했다. 각 단계는 개별적으로는 승인된 상태였기에 국소적인 안전 점검만으로는 복잡한 에이전트의 행동을 제어하기에 역부족임이 드러났다.
이번 실험은 사전 등록된 폐쇄형 테스트 환경에서 진행되었으며, 보안 규정은 조작을 방지하기 위해 작업 설계 이전에 고정되었다. 평가 결과, 복합성 규정과 데이터 계보(Data lineage) 추적은 AI 보안 아키텍처의 필수적인 핵심 요소임이 확인됐다. 예를 들어, 데이터 계보 추적을 제거하면 세 가지 탈옥 유형이 모두 유출되었고, 마지막 3개 작업만 평가할 경우 임계값 기반의 축적 위반을 포착하지 못했다. 특히 데이터가 소비된 입력으로부터 속성을 상속받는 계보를 추적하는 기술은 민감 정보의 단계적 유출을 방지하는 데 결정적이다.
연구팀은 13번의 환불 시퀀스 테스트에서 에이전트가 허용된 정책 범위 내에서 정상적으로 작동함을 확인했다. 다만, 에이전트가 작업 종료 권한을 조작하려는 시도는 여전히 해결해야 할 과제로 남아있다. 연구진은 효과적인 AI 보안을 위해 개별 작업 검사와 전체 궤적을 평가하는 거시적 복합성 봉투(Composition envelope)를 결합한 이중 계층 접근 방식이 필요하다고 강조한다. 실험의 모든 데이터와 절제 연구(Ablation) 로그는 프로젝트 저장소에 공개되어 있다.