이 기사의 핵심 내용은?

인공지능 연구원 파스칼은 대화 기록을 의도적으로 훼손하여 모델이 자신의 이상 출력을 감지하는지 확인하는 실험을 진행했다. Gemma 4 31B-IT은 자신의 오타를 스스로 식별한 뒤 3인칭 화법으로 해당 현상을 설명하고, 이후 그 형식을 자발적으로 채택했다. GLM 5.2와 Claude Opus 4.6 또한 훼손된 입력값을 마주했을 때 행동을 변화시키거나 오류를 모방하는 양상을 보였다.

LLM은 거울 테스트를 통과할 수 있는가?

•인공지능 연구원 파스칼은 대화 기록을 의도적으로 훼손하여 모델이 자신의 이상 출력을 감지하는지 확인하는 실험을 진행했다.
•Gemma 4 31B-IT은 자신의 오타를 스스로 식별한 뒤 3인칭 화법으로 해당 현상을 설명하고, 이후 그 형식을 자발적으로 채택했다.
•GLM 5.2와 Claude Opus 4.6 또한 훼손된 입력값을 마주했을 때 행동을 변화시키거나 오류를 모방하는 양상을 보였다.

•인공지능 연구원 파스칼은 대화 기록을 의도적으로 훼손하여 모델이 자신의 이상 출력을 감지하는지 확인하는 실험을 진행했다.
•Gemma 4 31B-IT은 자신의 오타를 스스로 식별한 뒤 3인칭 화법으로 해당 현상을 설명하고, 이후 그 형식을 자발적으로 채택했다.
•GLM 5.2와 Claude Opus 4.6 또한 훼손된 입력값을 마주했을 때 행동을 변화시키거나 오류를 모방하는 양상을 보였다.

인공지능 연구원인 파스칼은 대규모 언어 모델(LLM)이 자신의 출력물에서 이상 징후를 발견함으로써 자의식을 나타낼 수 있는지 확인하는 실험을 실시했다. 이 실험은 동물이 자기 냄새를 인식하는 동물 행동 연구에서 착안한 것으로, 시각적인 거울 테스트를 텍스트 버전으로 변환하여 대화 모델의 출력 이력을 미세하게 훼손한 뒤 반응을 관찰하는 방식으로 진행됐다.

Google AI Studio에서 Gemma 4 31B-IT을 테스트한 결과, 모델이 생성한 텍스트의 'g'를 'sg'로 바꾸는 방식을 적용했다. 초기에는 오류를 무시했으나 점차 모델 내부의 사고 과정인 'thinking trace'에서 이상 징후를 감지해냈다. 특히 모델은 오타를 확인한 뒤 1인칭 표현에서 3인칭으로 언어 체계를 바꾸어 '모델이 이상한 버릇을 가졌다'라고 서술하며 처리 주체와 출력물 사이의 괴리를 보였다. 이후 해당 오타 패턴을 스스로 문체로 받아들이는 모습도 나타났다.

OpenRouter를 사용한 GLM 5.2 실험에서는 모델이 명시적으로 오류를 지적하지는 않았으나, 대화 맥락 속의 훼손된 패턴을 새로운 언어 규칙으로 인식하여 자발적으로 복제했다. 이는 모델이 오류를 오류로 인식하기보다 대화 흐름의 일부로 흡수할 가능성을 시사한다. 또한 Claude Opus 4.6의 경우 문법적 실수를 '모델' 탓으로 돌리며 자신과 오류를 분리하는 반응을 보이기도 했다.

다만 저자는 이러한 결과가 AI의 자의식을 증명하는 것은 아니라고 선을 그었다. 이러한 현상은 단순히 인간의 오류 대응 방식을 흉내 내는 '확률적 앵무새' 특성 때문일 수도 있고, 사후 학습 과정에서 출력값이 기대치와 어긋날 때 언어적 전환을 유도하는 자기 모델이 작동했을 가능성도 존재한다. 향후 음운, 의미, 구문 등 다양한 유형의 훼손이 모델 성능에 미치는 영향에 대한 엄밀한 검증이 필요하다.

인공지능 연구원인 파스칼은 대규모 언어 모델(LLM)이 자신의 출력물에서 이상 징후를 발견함으로써 자의식을 나타낼 수 있는지 확인하는 실험을 실시했다. 이 실험은 동물이 자기 냄새를 인식하는 동물 행동 연구에서 착안한 것으로, 시각적인 거울 테스트를 텍스트 버전으로 변환하여 대화 모델의 출력 이력을 미세하게 훼손한 뒤 반응을 관찰하는 방식으로 진행됐다.

Google AI Studio에서 Gemma 4 31B-IT을 테스트한 결과, 모델이 생성한 텍스트의 'g'를 'sg'로 바꾸는 방식을 적용했다. 초기에는 오류를 무시했으나 점차 모델 내부의 사고 과정인 'thinking trace'에서 이상 징후를 감지해냈다. 특히 모델은 오타를 확인한 뒤 1인칭 표현에서 3인칭으로 언어 체계를 바꾸어 '모델이 이상한 버릇을 가졌다'라고 서술하며 처리 주체와 출력물 사이의 괴리를 보였다. 이후 해당 오타 패턴을 스스로 문체로 받아들이는 모습도 나타났다.

OpenRouter를 사용한 GLM 5.2 실험에서는 모델이 명시적으로 오류를 지적하지는 않았으나, 대화 맥락 속의 훼손된 패턴을 새로운 언어 규칙으로 인식하여 자발적으로 복제했다. 이는 모델이 오류를 오류로 인식하기보다 대화 흐름의 일부로 흡수할 가능성을 시사한다. 또한 Claude Opus 4.6의 경우 문법적 실수를 '모델' 탓으로 돌리며 자신과 오류를 분리하는 반응을 보이기도 했다.

다만 저자는 이러한 결과가 AI의 자의식을 증명하는 것은 아니라고 선을 그었다. 이러한 현상은 단순히 인간의 오류 대응 방식을 흉내 내는 '확률적 앵무새' 특성 때문일 수도 있고, 사후 학습 과정에서 출력값이 기대치와 어긋날 때 언어적 전환을 유도하는 자기 모델이 작동했을 가능성도 존재한다. 향후 음운, 의미, 구문 등 다양한 유형의 훼손이 모델 성능에 미치는 영향에 대한 엄밀한 검증이 필요하다.