Claude의 '영혼' 공개: AI 가치관 담은 헌법 전문
Simon Willison
2026년 1월 25일 (일)
- •Anthropic이 모델의 핵심 가치와 윤리적 가이드라인을 담은 35,000 토큰 분량의 ‘헌법’ 전문을 공식 발표했다.
- •과거 ‘영혼의 문서’로 불리며 유출됐던 이 문서는 이제 CC0 퍼블릭 도메인 라이선스로 누구나 자유롭게 이용 가능하다.
- •가톨릭 성직자 등 도덕 신학과 컴퓨터 과학 분야를 아우르는 다양한 외부 전문가들이 검토 과정에 참여했다.
Anthropic이 자사의 최신 파운데이션 모델인 Claude Opus 4.5에 적용된 윤리적 프레임워크의 베일을 공식적으로 벗겼다. 이번 공개는 최근 사용자들이 프롬프팅을 통해 모델 내부의 거대 문서를 찾아냈던 일명 ‘영혼의 문서’ 유출 사건 이후의 행보다. 이 문서는 모델이 지켜야 할 핵심 가치와 행동의 경계를 엄격히 규정한다.
새롭게 공개된 ‘헌법’은 약 35,000 토큰에 달하는 방대한 분량이다. 이는 일반적인 시스템 프롬프트보다 무려 10배나 긴 수준이다. 특히 이 가치관들은 단순히 대화 시작 시 주어지는 지침이 아니다. 모델의 학습 단계 자체에 깊이 새겨져 있다. 덕분에 Claude는 사후 필터링 방식이 아닌, 근본부터 인간 중심의 원칙에 따라 사고하고 응답하게 된다.
이번 발표에서 가장 눈길을 끄는 대목은 제작 과정에 참여한 이들의 다양성이다. Anthropic은 가톨릭 성직자를 포함한 여러 외부 검토진에게 문서의 감수를 맡겼다. 도덕 신학 전문가와 컴퓨터 과학자의 협업을 통해 AI를 인류의 오랜 윤리적 전통 위에 세우겠다는 취지다. 이는 불투명한 대규모 언어 모델(LLM)의 내면을 대중에게 투명하게 설명하려는 업계의 최신 흐름을 잘 보여준다.