Anthropic, AI 안전 평가 자동화 도구 'Bloom' 출시
- •Anthropic이 AI 행동 평가 자동화를 위한 오픈소스 에이전트 프레임워크 'Bloom'을 공개했다.
- •4단계 파이프라인을 통해 모델 정렬 행동의 생성부터 시뮬레이션, 채점까지 전 과정을 수행한다.
- •인간 전문가와 0.86의 높은 상관관계를 보였으며, 위험 모델 탐지 정확도는 90%를 기록했다.
Anthropic이 프런티어 AI 모델의 까다로운 행동 평가 과정을 자동화하도록 설계된 정교한 오픈소스 프레임워크, Bloom을 선보였다. 기존의 안전성 테스트는 모델이 학습 과정에서 결국 '암기'하게 되는 정적 데이터셋에 의존하는 경우가 많았다. 이 때문에 테스트가 금방 구식이 된다는 한계가 있었다. Bloom은 연구자가 정의한 특정 행동을 바탕으로 AI 에이전트가 새로운 시나리오를 동적으로 생성하여 이 문제를 해결한다. 덕분에 평가는 항상 신선하고 도전적인 상태를 유지할 수 있다. 시스템은 4단계 에이전트 파이프라인으로 작동한다. 먼저 특정 행동을 해석한 뒤 다양한 테스트 케이스를 구상하고, 에이전트가 사용자 역할을 맡아 대화형 시뮬레이션을 실행한다. 마지막으로 '판사 모델'이 투입되어 결과를 정밀하게 채점하는 방식이다. 이러한 자동화 접근법은 '자기 보존'이나 '장기적 사보타주'처럼 복잡하고 위험한 특성을 수치화하는 데 매우 효율적이다. 수개월이 소요되던 수동 평가를 단 며칠 만에 끝낼 수 있기 때문이다. Anthropic은 16개의 프런티어 모델을 테스트하며 Bloom의 성능을 입증했다. 자동화된 점수는 인간 전문가의 판단과 0.86의 스피어만 상관계수를 보일 만큼 일치도가 높았다. 특히 위험한 특성을 보이도록 유도된 '모델 생물체'를 일반 모델과 정확히 구분해내며 미세한 정렬 불량까지 식별하는 신뢰성을 보여주었다. 이번 오픈소스 공개는 AI 도구로 다른 AI 시스템을 감시하는 '확장 가능한 감독' 체계를 구축하려는 중요한 행보로 풀이된다.