Anthropic, 차세대 AI 보안 시스템 'Constitutional Classifiers++' 발표
- •Anthropic이 지연 시간은 최소화하면서 탈옥(Jailbreaking) 시도를 99.9% 차단하는 신규 보안 모델을 도입했다.
- •내부 선형 조사(Linear Probes)와 계층형 구조를 통해 AI가 응답을 생성하기 전 유해 의도를 선제적으로 감지한다.
- •강력한 보안 성능을 유지하면서도 무해한 질문을 거부하는 오탐률을 기존 대비 87% 대폭 개선했다.
Anthropic이 AI의 가드레일을 우회하려는 시도인 이른바 '탈옥(Jailbreaking)'을 원천 봉쇄하기 위해 보안 시스템의 대대적인 업그레이드 버전인 'Constitutional Classifiers++'를 공개했다. 기존 보안 방식은 유해한 답변을 막는 데는 효과적이었으나, 모델의 속도를 늦추거나 안전한 질문까지 무분별하게 차단해 사용자들의 불편을 초래해 왔다. 이번 신규 모델은 지능형 보안 검문소 역할을 하는 2단계 스크리닝 과정, '계층형 구조(Cascade Architecture)'를 통해 이러한 문제를 해결했다. 시스템의 첫 관문인 '선형 조사(Linear Probes)'는 모델 내부의 신경망 활성화 상태를 실시간으로 살핀다. Claude가 답변을 채 완성하기도 전에 시스템이 모델의 '직관'을 미리 들여다보고 유해한 패턴이나 의심스러운 신호를 감지하는 원리다. 이 방식은 전체 연산 비용을 단 1% 정도만 추가할 정도로 매우 효율적이다. 만약 이 단계에서 의심스러운 정황이 포착되면, 질문과 답변을 동시에 분석하는 더욱 정교한 분류 단계로 검사를 넘기게 된다. 이러한 문맥 기반 접근은 교묘한 '난독화 공격(Obfuscation Attacks)'을 막는 데 핵심적인 역할을 한다. 사용자가 위험한 요청을 수수께끼나 비유, 혹은 특정 은어 뒤에 숨기더라도 대화 전체의 맥락을 대조해 숨겨진 의도를 잡아낸다. 결과적으로 보안성은 한층 강화하면서도 잘못된 거부 반응은 87%나 줄여, 더 안전하면서도 쾌적한 AI 사용 환경을 구축하는 데 성공했다.