Anthropic, Claude 에이전트 보안 강화 전략 상세 공개
- •Anthropic이 에이전트의 시스템 접근 권한 확대에 따른 보안 위험을 관리하기 위해 다층 방어 전략을 도입했다.
- •기술적 방어 체계는 환경 격리, 모델 계층 안전장치, 외부 콘텐츠의 엄격한 제어라는 세 가지 핵심 축을 중심으로 구축되었다.
- •Claude Code는 신규 자동 모드와 강화된 OS 수준 샌드박스를 통해 권한 승인 요청 빈도를 84% 줄였다.
Anthropic이 모델의 시스템 접근 권한이 확대됨에 따라 발생할 수 있는 잠재적 영향 범위를 통제하기 위한 에이전트 보안 접근 방식을 공개했다. 이번 전략은 사용자 오용, 모델의 비정상적 동작, 외부 공격이라는 세 가지 위험 요소를 해결하는 데 초점을 맞추고 있다. 방어 체계는 에이전트가 실행되는 환경, 모델 자체의 논리 구조, 그리고 외부 콘텐츠 소스라는 세 가지 계층에 걸쳐 적용된다.
claude.ai 서비스에는 격리된 인프라 위에서 실행되는 일시적인 gVisor 컨테이너가 활용된다. 이는 영구적인 파일 시스템 접근 권한 없이 코드를 실행해 테넌트 간 취약점으로부터 시스템을 보호한다. 한편 Claude Code는 인간의 개입을 유지하면서도 사용자 편의성을 높이는 전략을 취하고 있다. 빈번한 권한 승인 요청으로 인해 발생하는 피로도를 낮추기 위해 도입된 자동 모드는 승인 요청을 84%까지 감소시켰다. 다만, 모델 계층의 방어만으로는 한계가 있어 데이터 유출 방지를 위한 엄격한 외부 통신 제어와 프롬프트 인젝션 공격에 대비한 보안책이 필수적으로 요구된다.
개발자가 아닌 일반 지식 노동자를 대상으로 한 Claude Cowork는 완전한 가상 머신(VM) 격리 방식을 사용한다. 이 방식은 사용자의 작업 공간만을 마운트하고 호스트 자격 증명은 게스트 머신에서 완전히 배제한다. 이러한 다층 방어 구조를 통해 Anthropic은 모델의 오작동 상황에서도 피해를 격리된 작업 공간 내로 한정하며, 인간 팀이 수행하던 복잡한 업무를 자동화하는 에이전트의 안전성을 확보하고 있다.