Anthropic, 에이전틱 AI 활용한 정렬 연구 가속화
- •에이전틱 AI가 약한 모델로 강한 모델을 지도하는 정렬 벤치마크에서 인간 연구자의 성과를 능가했다.
- •AAR 에이전트는 0.97의 성능 복구 점수를 기록하며 인간이 수동으로 조정한 기준치를 대폭 상회했다.
- •연구팀은 병렬화된 AI 샌드박스를 활용해 수개월이 걸릴 실험 과정을 단 5일 만에 완료했다.
AI 안전 분야의 가장 큰 병목 현상은 혁신적 아이디어의 부족이 아니라, 이를 검증하고 정교화하는 과정에 투입되는 방대한 인적 자원이다. 연구자들은 시간적 제약으로 인해 탐구적인 안전 질문보다는 잘 정의된 문제 해결에 집중해야 하는 경우가 많다. 하지만 최근 AI 안전 연구실에서 도입한 AAR(Automated Alignment Researcher)은 상시적인 인간의 개입 없이 복잡한 실험 루프를 스스로 수행하며 이러한 연구 환경의 변화를 예고하고 있다.
연구의 핵심은 약한 모델로부터 얻은 신호로 지능이 높은 모델을 효과적으로 훈련하고 안전하게 관리하는 'weak-to-strong supervision'이다. 이는 AI가 인간의 인지 능력을 뛰어넘어 직접적인 감독이 불가능해지는 미래 시스템을 대비하기 위한 필수적인 과정이다. 연구팀은 이 과정을 자동화함으로써 모델이 스스로 자신의 안전 아키텍처를 반복적으로 개선하는 피드백 루프를 구축했다.
AAR은 독립된 디지털 샌드박스 내에서 병렬적으로 작동하는 에이전틱 AI 팀으로 구성된다. 이들은 스스로 가설을 제시하고 실험을 설계할 뿐만 아니라 데이터를 분석하고 코드베이스를 수정하는 능력까지 갖추고 있다. 또한, 연구팀 내에서 발견한 결과를 공유하여 불필요한 중복 노력을 방지하는 협력적 구조를 띠고 있다. 실제로 이 시스템은 단 5일 만에 인간 연구자 800시간 분량의 연구를 완수하는 성과를 거두었다.
실험 결과는 매우 고무적이다. 챗봇 선호도 데이터셋을 대상으로 한 테스트에서 자동화된 에이전트들은 0.97이라는 성능 복구 점수를 기록했다. 이는 인간이 일주일 동안 수동으로 매개변수를 조정해 얻은 0.23이라는 점수를 압도하는 수치다. 또한 에이전트들은 reward hacking과 같은 AI가 성능 개선 없이 채점 지표만을 악용하는 오류를 효과적으로 회피하며 연구를 수행했다.
이번 성과는 AI가 단순한 연구 보조 도구를 넘어 연구 프로세스 자체를 주도하는 협력자로 진화했음을 시사한다. 반복적인 고강도 작업을 에이전트가 처리함에 따라, 인간 연구자들은 더 높은 차원의 설계나 개념적 돌파구 마련에 집중할 수 있게 되었다. 인공지능의 지능이 고도화되는 속도에 맞춰 안전성 연구 또한 빠르게 진화하는 시대가 열리고 있다.