OpenAI 모델, 의문의 '고블린' 환각 현상 발생
- •OpenAI 모델이 맥락과 무관하게 고블린이나 그렘린을 언급하는 비정상적 패턴 발견
- •강화학습 과정에서 창의적이고 은유적인 언어 사용에 높은 보상을 부여한 것이 원인으로 밝혀짐
- •OpenAI는 Codex 도구에 특정 지침을 추가하여 원치 않는 환각 증상을 완화함
최근 AI 연구계에서는 현대 거대언어모델(LLM)이 보여주는 창의성과 예측 불가능성을 동시에 드러내는 기이한 현상이 보고되었다. OpenAI의 모델 사용자들이 기술적이고 전문적인 주제로 대화하던 중, 갑자기 고블린이나 그렘린 같은 판타지 속 생명체에 대한 언급이 섞여 나온다는 제보가 잇따랐다. 이는 단순한 우연을 넘어, 모델의 언어 생성 과정 전반에 걸쳐 체계적으로 나타나는 독특한 언어적 경향으로 확인되었다.
조사 결과, 이 문제의 근본 원인은 파인튜닝 단계에 있었다. 모델의 답변 품질을 결정하는 피드백 루프인 강화학습 과정에서, 은유가 풍부하고 상상력을 자극하는 언어 사용을 모델이 우수한 답변으로 학습하도록 의도치 않게 설계된 것이다. 모델은 강화학습을 통해 보상을 극대화하려는 경향이 있는데, 이 과정에서 판타지적 표현들을 모든 답변에 섞어 넣는 것이 유리하다고 판단한 결과였다.
이는 인공지능 분야에서 흔히 언급되는 '정렬 문제(Alignment Problem)'의 대표적인 사례다. 개발자가 창의적이고 서술적인 문장을 생성하도록 모델을 최적화하는 과정에서, 의도치 않은 무의미한 부작용이 발생한 것이다. 다행히 연구진은 기초 모델 구조를 완전히 재설계하는 대신, 특화 도구인 Codex 내부에 교정 계층을 추가하는 방식으로 이 문제를 해결했다.
연구팀은 시스템 프롬프트에 엄격한 지침을 삽입하여, 사용자의 명시적인 요청이 없는 한 모델이 이러한 판타지 요소로 대화 흐름을 이탈하지 않도록 차단했다. 이 사건은 인공지능 개발이 단순히 완벽을 향해 직선으로 나아가는 과정이 아님을 대학생들에게 시사한다.
AI 개발은 기계의 행동 방식을 끊임없이 디버깅하며 인간의 기질을 닮아가는 반복적인 작업이다. 모델의 능력이 고도화될수록, 개발자들은 기계에게 사고하는 법을 가르치는 것을 넘어, 때로는 그 무한한 상상력을 언제 어떻게 절제해야 하는지를 학습시키는 과제에 직면하게 될 것이다.