Anthropic, 강력한 공격용 AI 'Claude Mythos' 일반 공개 보류
- •Anthropic, 소프트웨어 취약점 탐지 및 악용 특화 AI 'Claude Mythos Preview' 발표
- •악용 위험성 고려하여 일반 공개를 보류하고, 신뢰받는 연구 기관에만 제한적 제공
- •아마존, 구글 등과 협력하여 방어형 보안 프로젝트 'Project Glasswing' 가동
2026년 4월 7일, AI 연구 기업인 Anthropic은 새로운 첨단 AI 모델인 'Claude Mythos Preview'를 공개했다. 이 모델은 기존 모델들과 달리 소프트웨어 취약점을 자율적으로 찾아내고, 이를 악용하는 코드까지 생성할 수 있는 강력한 공격적 보안 능력을 갖추고 있다. 실제로 이 모델은 17년간 발견되지 않았던 FreeBSD의 고질적인 취약점을 즉각적으로 찾아내며, 이미 숙련된 보안 엔지니어의 수준을 능가하는 성능을 입증했다.
통상적으로 AI 기업들은 모델의 성능 향상을 강조하지만, Anthropic은 이례적으로 공개 거부라는 정반대의 길을 택했다. 강력한 기술이 악의적인 공격자에게 전용될 경우 발생할 사회적 위험이 매우 크다고 판단했기 때문이다. 이러한 결정은 단순히 기술적 편리함을 넘어, AI가 사이버 보안의 근간을 뒤흔들 수 있는 위협이 될 수 있음을 시사하는 중요한 선례가 되었다.
Anthropic은 투명성을 확보하기 위해 모델의 위험성과 안전 조치를 상세히 담은 'System Card'를 배포했다. 또한, Mythos의 방어적 측면을 극대화하고자 아마존 웹 서비스, 애플, 구글, 마이크로소프트, 엔비디아, 리눅스 재단 등과 함께 보안 강화 프로젝트인 'Project Glasswing'을 시작했다. 이는 AI의 공격을 AI로 방어하는 사이버 보안의 새로운 경쟁 구도를 예고하는 전략적 협력이다.
CS 비전공자에게도 이번 소식은 시사하는 바가 크다. AI가 이제 인간의 인지 능력을 뛰어넘는 속도로 시스템의 '허점'을 찾아낼 수 있게 되었기 때문이다. 이는 미래 디지털 사회에서 보안을 정의하고 유지하는 일이 더 이상 인간의 전유물이 아님을 의미한다. 앞으로 서비스의 이면에서 이루어질 AI 대 AI의 보안 공방은 일상이 될 전망이다.
기술은 본래 중립적이며, 그것을 창으로 쓸지 방패로 쓸지는 개발자와 사회의 윤리적 책임에 달려 있다. 이번 결정은 AI의 능력을 과대 혹은 과소평가하지 않으면서 기술의 폭주를 막으려는 'AI 거버넌스'의 중요한 이정표가 될 것이다. 이제 우리는 성능뿐만 아니라 기술이 가져오는 '위험의 민주화' 시대에 걸맞은 리터러시를 갖춰야 하는 시점에 서 있다.