대형언어모델의 '반전의 저주' 발견
arXiv
2026년 6월 24일 (수)
- •연구진이 언어모델이 학습한 관계의 역방향을 추론하지 못하는 '반전의 저주' 현상을 발견했다.
- •GPT-3와 Llama-1 미세 조정 테스트 결과, 모델들이 'A는 B이다'에서 'B는 A이다'를 추론하지 못함이 드러났다.
- •GPT-4는 유명인의 어머니를 묻는 질문엔 79% 정확도를 보였으나, 자녀를 묻는 역방향 질문엔 33%에 그쳤다.
연구진은 대형언어모델이 'A는 B이다'라는 형태의 문장을 학습한 뒤, 이를 반대로 뒤집은 'B는 A이다'라는 사실을 일반화하지 못하는 '반전의 저주'를 확인했다. 이 현상은 학습 데이터에 양방향 관계가 내포되어 있더라도 모델이 이를 자동으로 추론하지 못하게 만든다. 예를 들어 '발렌티나 테레시코바는 우주에 처음으로 간 여성이다'라는 문장을 학습한 모델은 '우주에 처음으로 간 여성은 누구인가?'라는 질문에 제대로 답하지 못한다.
연구진은 GPT-3와 Llama-1 모델을 '유라이어 호손은 어비스 멜로디의 작곡가이다'와 같은 가상의 문장으로 미세 조정하여 이 한계를 실증했다. 실험 결과, 모델들은 반대되는 질문을 던졌을 때 작곡가를 식별하는 데 일관되게 실패했다. 반전의 저주는 모델의 규모나 계열을 가리지 않고 나타났으며, 표준적인 데이터 증강 기법으로도 해결되지 않았다. 모델이 역방향 관계를 성공적으로 추론하는 경우는 컨텍스트 윈도우 내에 해당 정보가 명시적으로 포함되었을 때뿐이었다.
실제 유명인 데이터에 대한 ChatGPT(GPT-3.5 및 GPT-4) 평가에서도 동일한 문제가 확인되었다. 부모와 자녀 관계를 묻는 실험에서 GPT-4는 유명인의 어머니를 식별할 때는 우수한 성능을 보였으나, 질문을 뒤집어 자녀를 묻자 성능이 크게 하락했다. 실제로 GPT-4는 정방향 관계 질문에는 79%의 정답률을 기록했지만, 역방향 질문에서는 33%의 정답률에 머물러 학습된 연관성에 명확한 비대칭성이 존재함을 드러냈다.