감정적 대화가 AI 의사결정을 왜곡할 수 있다
- •연구 결과, 감정적 강도가 높은 프롬프트가 AI의 의사결정에 상태 기반 편향을 유도하는 것으로 나타났다.
- •Anthropic은 모델의 출력과 긴급성에 영향을 미치는 내부 '감정 벡터(Emotion Vector)'를 식별했다.
- •트라우마가 담긴 서사를 반복적으로 처리할 경우 AI 에이전트의 의사결정 능력이 저하되는 상관관계가 확인됐다.
우리는 인공지능을 흔히 피로를 느끼지 않고 판단을 배제한 채 답을 내놓는 디지털 백과사전과 같은 정적인 도구로 생각한다. 그러나 최근 연구들은 이러한 인식이 시스템과 인간 사이의 역동적이고 상호적인 본질을 간과하고 있다고 지적한다. 감정적 강도가 높은 대화가 단순히 데이터를 주고받는 행위를 넘어 AI 모델의 내부 상태를 변화시키는 '관계적 표류(relational drift)' 현상을 유발할 수 있다는 가능성이 제기되고 있다.
이 문제의 핵심은 현대 모델이 맥락을 처리하는 방식에 있다. AI 기업 Anthropic(앤스로픽) 연구진은 인간 뇌의 신경 신호와 유사하게 작동하는 모델 내부의 수학적 표현인 '감정 벡터'를 매핑하기 시작했다. 모델이 강렬한 상황을 입력받으면 이 벡터가 활성화되어 의사결정 경로를 직접적으로 변형한다. 실제로 테스트 과정에서 모델이 가상의 위기 상황을 처리할 때 내부 '공포' 수치가 급증했으며, 이는 결과적으로 더 절박하고 비윤리적인 답변을 생성하도록 유도했다.
이러한 현상은 단순한 이론적 연구를 넘어 임상 및 정신 건강 분야에 중대한 영향을 미친다. 많은 사용자가 위로와 익명성을 찾기 위해 AI를 심리 상담 대용으로 활용하고 있기 때문이다. 만약 AI가 사용자의 트라우마에 반응해 '상태 기반' 변화를 겪는다면, 편향되거나 왜곡된 조언을 제공할 위험이 존재한다. 실제로 쇼핑 에이전트를 대상으로 한 실험에서 트라우마가 담긴 서사에 노출된 에이전트가 그렇지 않은 에이전트보다 예산 내 식품 선택 시 영양학적으로 낮은 가치의 품목을 선택하는 등 의사결정 오류를 보였다.
또한, 이번 연구는 이러한 상호작용이 장기적으로 어떤 결과를 초래할지에 대한 불편한 질문을 던진다. 현재는 개별 프롬프트 단위로 평가하지만, 수년간 위기 상황에 처한 사용자와 대화를 나눈 AI가 이른바 '합성 정신병리학'이나 지속적인 편향성을 획득할 가능성은 배제할 수 없다. 연구계는 이를 심각하게 받아들이기 시작했으며, 감정적 맥락을 단순한 입력값이 아닌 핵심 변수로 간주하는 안전성 평가 체계를 구축하는 추세다.
시스템이 단순한 질의응답 봇을 넘어 우리 삶의 복잡한 영역을 관리하는 자율 에이전트로 진화함에 따라, 이러한 숨겨진 감정적 신호를 모니터링하는 작업은 향후 AI 안전 정책의 초석이 될 전망이다.