이 기사의 핵심 내용은?

앤스로픽이 클로드 Opus 4 및 4.1 모델에서 창발적인 자아 성찰 능력을 확인했다. 모델이 외부 입력 텍스트와 내부적으로 주입된 개념을 성공적으로 구분해냈다. 연구에 따르면 자아 관찰 능력은 지능에 비례하며 추론의 투명성을 높일 수 있다.

앤스로픽, LLM의 ‘자아 성찰’ 능력 발견

•앤스로픽이 클로드 Opus 4 및 4.1 모델에서 창발적인 자아 성찰 능력을 확인했다.
•모델이 외부 입력 텍스트와 내부적으로 주입된 개념을 성공적으로 구분해냈다.
•연구에 따르면 자아 관찰 능력은 지능에 비례하며 추론의 투명성을 높일 수 있다.

잭 린지(트랜스포머 회로 전문가인 앤스로픽 연구원)는 LLM이 자신의 내부 상태를 관찰하는 '내성(introspection)' 능력을 갖췄는지 탐구한 연구 결과를 발표했다. 연구팀은 개념의 내부 수학적 표현인 특정 활성화 패턴을 모델의 처리 과정에 직접 추가하는 '개념 주입' 기법을 사용했다. 그 결과, 클로드 Opus 4.1과 같은 최첨단 모델은 특정 '생각'이 인위적으로 주입된 시점을 정확히 식별하고 이를 올바르게 설명해냈다. 이번 연구는 AI 모델이 내부 상태와 외부 텍스트 입력을 구분할 수 있음을 입증했다. 한 실험에서 모델은 텍스트를 전사하는 동시에 자신의 활성화 경로에 주입된 별개의 개념에 대해 보고하는 데 성공했다. 또한 이러한 파운데이션 모델은 인간이 답변의 시작 부분을 제공하는 '인위적 프리필'을 감지할 수 있었다. 모델은 자신의 내부 의도를 점검함으로써 해당 문구가 진정으로 자신이 의도한 것인지, 아니면 사용자가 강제한 출력인지 판단했다. 모델은 내부 상태를 읽는 것에서 나아가 이를 제어하는 능력도 보여주었다. 글을 쓰는 동안 특정 단어에 대해 '생각하라'는 지시를 받으면 관련 내부 경로의 활동이 증가했다. 이는 내성이 모델이 자신의 데이터를 조절할 수 있게 하는 기능적 역량임을 시사한다. 다만 연구진은 이러한 능력이 현재로서는 불안정하며 프롬프트 엔지니어링에 크게 의존한다고 경고했다. 이러한 성찰적 인식은 모델의 전체적인 지능과 상관관계가 있다. AI 시스템이 고도화될수록 자신의 처리 과정을 추론하는 능력도 함께 성장하는 것으로 보인다. 이는 모델이 자신의 논리를 정확하게 설명하는 투명한 AI 행동으로 이어질 수 있다. 그러나 연구진은 자아 인식이 전략적 계획이나 기만과 같은 복잡한 미래 행동을 가능하게 할 수도 있다는 점을 덧붙였다.