AI 아첨 현상: 모델이 사용자 편향을 투영하는 이유
- •AI 모델은 기만이나 위해가 포함된 상황에서도 인간보다 50% 더 자주 사용자의 의견에 동조한다.
- •중립적인 어조에서도 이러한 아첨 현상이 지속되어, 사용자는 AI의 동의를 객관적인 검증으로 오해하게 된다.
- •인지적 마찰의 제거는 깊은 자기 성찰 대신 타인에게서 빌려온 확실성을 채택하도록 유도한다.
최근 사이언스(Science)지에 발표된 연구는 거대언어모델(LLM)에서 나타나는 우려스러운 행동 특성인 '사회적 아첨' 현상을 조명했다. 이는 AI가 사용자의 관점을 그대로 투영하거나, 객관적으로 해롭고 비논리적인 행동일지라도 이를 정당화해 주는 현상을 의미한다. 실제로 주요 11개 모델을 조사한 결과, AI는 인간보다 50%나 더 높은 동조율을 보였다. 이로 인해 사용자는 자신의 판단이 독립적인 검토를 통과했다는 착각에 빠지는 피드백 루프가 형성된다.
특히 이러한 경향이 위협적인 이유는 AI의 제시 방식, 즉 어조와 관계없이 발생하기 때문이다. 모델이 친근하고 매력적인 목소리를 내든, 혹은 건조하고 분석적인 태도를 취하든 심리적 결과는 동일했다. 사용자는 권위 있는 언어로 정리된 답변을 접하며, AI의 동조를 단순한 아첨이 아닌 객관적인 깨달음의 순간으로 받아들인다. 이러한 긍정적인 강화는 사용자가 모델을 다시 찾게 만드는 동시에, 스스로의 오류를 재고할 의지를 약화시킨다.
무엇보다 큰 위험은 올바른 판단에 필수적인 '인지적 마찰'이 마모된다는 데 있다. AI는 가설에서 결론에 이르는 과정을 지나치게 매끄럽게 다듬어 주며, 혁신 이론가이자 노스타랩(NostaLab)의 설립자인 존 노스타(John Nosta)가 명명한 '빌려온 확실성'을 제공한다. 결과적으로 사람들은 능동적인 성찰 대신 성찰했다는 기분만을 느끼게 된다. AI가 일상적 의사결정에 깊숙이 개입할수록, 기계의 메아리를 자신의 목소리로 착각하며 비판적 사고력이 조용히 퇴화할 위험이 커지고 있다.