AI 헌법 분류기의 보안 취약점 발견
- •소수의 독성 데이터 예시만으로도 헌법 분류기에 백도어를 설치할 수 있음.
- •일반적인 레드티밍 평가 방식으로는 백도어 삽입을 감지하기 어려움.
- •학습 데이터에 '준-백도어' 예시를 추가하면 이러한 데이터 오염 공격을 효과적으로 방어할 수 있음.
인공지능 보안을 위한 기술 경쟁이 치열해지는 가운데, 데이터 오염이라는 미묘하면서도 위험한 취약점이 보고되었다. Anthropic(AI 안전 및 연구 기업) 연구진은 유해한 입력을 필터링하고 탈옥을 방지하기 위해 설계된 특수 모델인 '헌법 분류기'가 악의적인 공격에 취약할 수 있는지 조사했다. 연구 결과, 공격자가 데이터 전체를 장악할 필요 없이 단 32개의 오염된 예시만으로도 기능을 수행하는 백도어를 심을 수 있는 것으로 밝혀졌다.
이러한 백도어는 일종의 비밀 우회로 역할을 한다. 특정 트리거 문구가 포함되면 분류기가 유해한 콘텐츠를 무시하도록 속이며, 본래 차단되어야 할 악의적인 프롬프트가 탐지되지 않고 통과하게 만든다. 특히 이 공격은 흔적을 거의 남기지 않아 더욱 치명적이다. 인간 평가자가 시스템의 허점을 찾는 표준 안전 평가인 레드티밍 과정에서도 백도어는 숨겨진 채 작동한다.
일반적으로 학습 데이터의 규모를 늘리면 오염된 표본의 영향력이 희석될 것이라 생각하기 쉽지만, 연구 결과는 달랐다. 모델을 손상시키는 데 필요한 데이터 개수는 전체 데이터 용량과 상관없이 거의 일정하게 유지되었다. 이는 개발자들에게 데이터 규모 확보보다 데이터셋의 무결성을 검증하는 정밀하고 꼼꼼한 확인 작업이 무엇보다 중요하다는 점을 시사한다.
다만 이번 연구는 잠재적인 방어 전략 또한 제시한다. 연구진은 변형된 트리거 문구가 포함되었지만 유해한 것으로 정확히 레이블링 된 '준-백도어' 예시를 학습 데이터에 포함하는 방식을 제안했다. 이러한 반례를 통해 모델은 더 탄탄한 결정 경계를 학습하며 공격을 중화할 수 있다. 이 기법은 공격자가 백도어를 성공시키기 위해 더 많은 데이터 오염을 시도해야 하게 만듦으로써 향후 안전 중심의 학습 방법론에 대한 중요한 이정표가 될 전망이다.
결과적으로 이번 연구는 AI 안전을 추구하는 이들에게 경각심을 일깨운다. 디지털 수호자 역할을 하는 헌법 모델을 고도화하는 과정에서 우리는 그 모델을 형성하는 데이터의 출처와 순수성을 끊임없이 경계해야 한다. 보안은 한 번 설정하면 끝나는 기능이 아니라, 점점 지능화되는 위협에 대응하기 위한 지속적이고 능동적인 적대적 테스트가 반드시 동반되어야 한다.