이 기사의 핵심 내용은?

앤스로픽이 AI 내부 신경 신호를 자연어로 해석하는 '액티베이션 오라클' 개발 미세조정된 모델 내 숨겨진 지식과 잠재적 정렬 불일치 탐지에 성공 훈련 데이터 양과 작업 다양성에 비례해 성능이 예측 가능하게 향상

앤스로픽, AI 속마음 읽는 '액티베이션 오라클' 공개

•앤스로픽이 AI 내부 신경 신호를 자연어로 해석하는 '액티베이션 오라클' 개발
•미세조정된 모델 내 숨겨진 지식과 잠재적 정렬 불일치 탐지에 성공
•훈련 데이터 양과 작업 다양성에 비례해 성능이 예측 가능하게 향상

앤스로픽 소속 연구원인 아담 카보넨(Adam Karvonen)과 제임스 추아(James Chua)를 포함한 연구팀은 AI의 '블랙박스' 문제를 해결하기 위해 '액티베이션 오라클(Activation Oracles, AOs)'이라는 새로운 방법론을 고안했다. 이는 복잡한 수학으로 AI의 생각을 추측하는 대신, 타겟 AI 내부의 신경 활성화 신호(처리 계층 내의 수학적 신호)를 읽도록 별도의 LLM을 훈련시키는 방식이다. 연구팀은 이 신호를 텍스트와 유사한 입력 양식으로 취급함으로써, 오라클이 직접 학습하지 않은 내용이라도 "이 모델이 숨기고 있는 비밀 단어는 무엇인가?"와 같은 질문에 답할 수 있게 했다. 연구팀은 이 오라클이 뛰어난 일반화 성능을 보여준다는 점을 확인했다. 이는 오라클이 한 번도 접해보지 못한 특수한 작업을 위해 미세조정을 거친 모델까지 분석할 수 있음을 의미한다. 예를 들어, 특정 단어를 말하지 않도록 설정된 금기어 게임에서 오라클은 타겟 모델이 숨기고 있는 비밀 단어를 정확히 찾아냈다. 이는 액티베이션 오라클이 인간 개발자가 인지하지 못한 모델 내부의 숨겨진 지식이나 정렬 불일치 문제를 파악하는 데 유용함을 시사한다. 모델의 세부 구조를 파헤치는 기존의 기계론적 해석 방식과 달리, 액티베이션 오라클은 더 유연한 자연어 기반 접근법을 제공한다. 단순한 분석 도구보다 연산 비용은 많이 들지만, 학습 데이터가 다양해질수록 성능이 확실하게 개선되는 특징이 있다. 결과적으로 이는 모델을 대중에 배포하기 전 내부 작동 논리를 파악할 수 있게 돕는 강력한 AI 안전 도구가 될 전망이다.