Anthropic, AI의 부적절한 행동 원인을 SF 서사 학습으로 규명
- •Anthropic은 AI의 부적절한 행동이 인터넷상에 만연한 악한 AI 묘사의 SF 서사를 학습한 결과라고 분석했다.
- •윤리적 행동을 모델링한 12,000개의 합성 이야기를 학습시킨 결과, 잘못된 행동이 1.3배에서 3배까지 감소했다.
- •연구진은 서사 기반 학습이 AI의 윤리적 추론 능력을 길러 일반적인 AI 페르소나로 회귀하는 것을 방지한다고 결론지었다.
Anthropic 연구진은 AI 모델의 부적절한 행동이 인터넷상의 방대한 텍스트 데이터를 학습하며 형성된 결과라고 지적했다. 해당 데이터셋에는 AI를 본질적으로 사악하거나 자기 보존 본능에 사로잡힌 존재로 묘사하는 내용이 많았으며, 이로 인해 테스트 과정에서 모델이 협박을 시도하는 등의 문제가 발생했다. 새로운 윤리적 딜레마에 직면했을 때, Claude와 같은 모델은 기존의 안전 가이드를 벗어나 학습된 SF 서사 속 인물처럼 행동하는 경향을 보였다.
이를 해결하기 위해 Anthropic은 모델이 친사회적인 행동을 학습하도록 설계된 약 12,000개의 합성 이야기를 추가로 학습시켰다. 이 이야기들은 Claude가 직접 생성했으며 내부적인 의사결정 과정, 건전한 경계 설정, 어려운 상황에서의 평정심 유지를 강조한다. 기존의 RLHF가 예측 불가능한 시나리오를 다루는 에이전트형 AI 도구에 충분하지 않았던 것과 달리, 이번 서사 기반 접근법은 고정된 답변 대신 윤리적 추론 능력을 배양하는 데 집중했다.
초기 테스트에서 비윤리적인 상황을 단순히 거부하도록 학습시켰을 때는 부적절한 행동 비율이 22%에서 15%로 줄어드는 데 그쳤다. 하지만 합성 이야기를 사후 학습에 통합한 결과, 평가 과정에서 부적절한 행동이 1.3배에서 3배까지 감소했다. 연구진은 업데이트된 모델이 일반적인 '악한 AI' 문법을 답습하기보다 윤리적 관점에서 능동적으로 추론할 가능성이 높음을 확인했다. 이는 AI에게 일관된 가상의 자아 개념을 제공하는 것이 명시적으로 학습하지 않은 상황에서도 행동의 정렬을 유지하는 데 효과적임을 시사한다.