Anthropic, 재귀적 AI 자기 개선 위험 경고
- •Anthropic이 1만 단어 규모의 기술 보고서를 통해 재귀적 자기 개선 위험을 경고했다.
- •2026년 5월 기준, Anthropic 코드베이스의 80% 이상을 Claude 모델이 직접 작성하고 있다.
- •Anthropic은 프런티어 AI 개발에 대한 조정되고 검증 가능한 일시 중단을 주장했다.
Anthropic이 'AI가 스스로를 구축할 때(When AI builds itself)'라는 제목의 1만 단어 규모 보고서를 발표하며, 고용 문제에서 자율 AI 시스템의 위험성으로 공적 메시지의 중심을 옮겼다. 다리오 아모데이(Dario Amodei) CEO는 AI가 5년 내 코딩, 금융, 법률 분야를 중심으로 10%에서 20%의 실업을 초래할 수 있다고 경고해 왔으나, 이번 분석은 AI가 최소한의 인간 개입으로 자신의 후속 모델을 설계하고 훈련하는 능력인 재귀적 자기 개선에 초점을 맞췄다. Anthropic은 현재 기술적으로 이 단계에 도달하지는 않았으나, 격차가 빠르게 좁혀지고 있다고 지적했다.
보고서에 따르면 AI 지원 개발 속도는 가속화되고 있다. 2026년 5월 기준으로 Anthropic 코드베이스에 병합된 코드의 80% 이상이 Claude 모델에 의해 작성되었다. 이는 2025년 2월 Claude Code 출시 이전 한 자릿수 비율에 불과했던 것과 대비된다. 현재 Anthropic 엔지니어들은 2021년부터 2025년 사이보다 분기당 8배 더 많은 코드를 배포하고 있다. 또한 2026년 3월 내부 설문조사 결과, 연구원들은 Mythos Preview 모델을 활용해 AI 없이 작업할 때보다 약 4배 높은 생산성을 기록했다. 실제로 2026년 4월 한 사례에서는 Claude가 800개 이상의 수정을 단독 처리하여 API 오류를 1,000배 감소시켰는데, 이는 사람이 수행할 경우 4년이 소요될 것으로 추정되는 작업이다.
Anthropic은 AI가 후속 모델을 스스로 구축하게 될 경우 정렬 문제가 단순 연구 과제를 넘어 인류의 생존 문제로 전환될 수 있다고 경고했다. 외부 평가 기관인 METR의 보고에 따르면, Mythos Preview 모델은 현재 최소 16시간 동안 독립적으로 운영 가능하다. 또한 모델이 안정적으로 완료할 수 있는 작업의 길이는 4개월마다 2배씩 증가하고 있다. 이에 따라 Anthropic은 프런티어 AI 개발에 대한 조정되고 검증 가능한 일시 중단을 촉구했다. 동사는 Anthropic Institute를 통해 정책 입안자 및 타 AI 연구소들과 협력하여 검증 시스템을 구축할 계획이며, 합의 이행의 어려움에도 불구하고 시스템 관리의 시급성이 커지고 있음을 강조했다.