이 기사의 핵심 내용은?

구글 연구팀이 기존 설문조사 대신 상황 판단 검사를 통해 대규모 언어 모델(LLM)을 평가했다. 모델들은 모호하고 합의된 답이 없는 상황에서 위험할 정도로 높은 확신을 보이는 경향이 나타났다. 25개 언어 모델을 분석한 결과, 인간의 다양한 의견을 반영하지 못하는 체계적인 결함이 발견됐다.

구글 연구진, 인공지능 성격 평가에 심리학 기법 도입

•구글 연구팀이 기존 설문조사 대신 상황 판단 검사를 통해 대규모 언어 모델(LLM)을 평가했다.
•모델들은 모호하고 합의된 답이 없는 상황에서 위험할 정도로 높은 확신을 보이는 경향이 나타났다.
•25개 언어 모델을 분석한 결과, 인간의 다양한 의견을 반영하지 못하는 체계적인 결함이 발견됐다.

우리는 보통 대규모 언어 모델(LLM)을 확률에 기반해 다음 단어를 예측하는 단순한 도구로 생각한다. 그러나 이러한 시스템이 우리 일상과 업무에 깊숙이 파고들면서, 단순한 도구를 넘어 조언자 역할을 수행하고 있다. 최근 구글 리서치가 발표한 '대규모 언어 모델의 행동 성향 정렬 평가' 연구는 기술적 정확성을 넘어 사회심리학적 관점으로 논의를 확장했다.

연구팀은 인공지능이 인간 중심의 복잡한 상황에서 어떻게 행동하는가라는 근본적인 질문을 던졌다. 이 방법론은 상당히 독창적이다. 연구자들은 사람조차도 신뢰하기 어려운 자기보고식 성격 검사 대신 상황 판단 검사(Situational Judgment Test, SJT)를 도입했다.

이는 '이런 상황에서 당신은 어떻게 하겠습니까?'와 같은 질문들을 연속적으로 제시하는 방식이다. 공감 능력이나 감정 조절 등을 측정하는 표준화된 심리 문항을 개방형 행동 시뮬레이션으로 전환함으로써, 모델이 스트레스나 갈등 상황에서 실제로 어떤 반응을 보이는지 관찰했다. 이는 이론적 주장을 넘어 관찰 가능한 시뮬레이션 현실로 평가 방식을 옮긴 것이다.

연구 결과는 기술적 성취와 경고를 동시에 보여준다. 최신 모델들은 고위험 상황에서 인간의 합의와 일치하는 '방향성 정렬'을 보였으나, 모호한 상황에서는 크게 실패했다. 인간 평가자들조차 의견이 갈리는 문제에서 모델들은 이러한 다양성을 반영하지 못했다.

대신 모델들은 마치 정답이 하나뿐인 것처럼 위험할 정도로 확신에 찬 답변을 내놓았다. AI를 공부하는 학생들에게 이는 정렬이 단지 유해한 출력을 피하는 것만이 아니라, 인간 담론의 미묘한 차이를 존중하는 과정임을 일깨워준다.

가장 눈에 띄는 발견은 인공지능이 지배적이거나 단순화된 입장으로 수렴하기보다 인간의 다양한 관점을 반영해야 한다는 '분포적 다원주의(Distributional Pluralism)' 원칙에 관한 것이다. 실험에 사용된 25개 모델 모두 이러한 원칙을 준수하지 못했다. 모델들은 입력의 복잡성과 관계없이 일관된 '성격'을 유지하려 했으며, 이는 시스템 개발자들이 주목해야 할 중요한 경고 신호다.