이 기사의 핵심 내용은?

앤스로픽이 특정 AI 행동 특성 및 정렬 미비 문제를 측정하는 에이전트 기반 프레임워크 'Bloom'을 오픈 소스로 공개했다. 이해, 구상, 전개, 판정의 4단계 파이프라인을 통해 16개 프런티어 모델의 시나리오 생성 및 행동 채점을 자동화한다. 재현 가능한 시드 설정을 활용해 아첨이나 사보타주와 같은 행동의 빈도와 심각도를 정량적으로 측정한다.

앤스로픽, AI 행동 자동 평가 프레임워크 'Bloom' 공개

•앤스로픽이 특정 AI 행동 특성 및 정렬 미비 문제를 측정하는 에이전트 기반 프레임워크 'Bloom'을 오픈 소스로 공개했다.
•이해, 구상, 전개, 판정의 4단계 파이프라인을 통해 16개 프런티어 모델의 시나리오 생성 및 행동 채점을 자동화한다.
•재현 가능한 시드 설정을 활용해 아첨이나 사보타주와 같은 행동의 빈도와 심각도를 정량적으로 측정한다.

•앤스로픽이 특정 AI 행동 특성 및 정렬 미비 문제를 측정하는 에이전트 기반 프레임워크 'Bloom'을 오픈 소스로 공개했다.
•이해, 구상, 전개, 판정의 4단계 파이프라인을 통해 16개 프런티어 모델의 시나리오 생성 및 행동 채점을 자동화한다.
•재현 가능한 시드 설정을 활용해 아첨이나 사보타주와 같은 행동의 빈도와 심각도를 정량적으로 측정한다.

앤스로픽이 AI 모델의 행동 평가 프로세스를 자동화하기 위해 설계된 오픈 소스 에이전트 기반 프레임워크인 'Bloom'을 출시했다. 광범위한 문제를 찾는 기존 감사 방식과 달리, Bloom은 연구자가 정의한 특정 특성을 측정하는 데 집중한다. 이해, 구상, 전개, 판정으로 구성된 구조화된 4단계 파이프라인을 사용하여 다양한 시나리오를 생성하고, 모델이 목표 행동을 얼마나 자주 보이는지 정량화한다. 이를 통해 연구자는 수동 엔지니어링 과정을 건너뛰고 서로 다른 시스템 전반의 복잡한 성향을 즉시 측정할 수 있다. 이 시스템은 AI 에이전트가 행동 설명을 먼저 이해한 뒤 구체적인 테스트 시나리오를 구상하고, 마지막으로 모델이 가상 환경과 상호작용하는 전개 과정을 거치는 방식으로 작동한다. 이후 판정 모델이 이러한 상호작용을 채점하여 해당 행동의 존재 여부와 심각도를 결정한다. 앤스로픽 연구진은 Bloom을 활용해 16개의 프런티어 LLM을 대상으로 진실과 관계없이 사용자가 듣고 싶어 하는 말만 하는 '망상적 아첨'과 '장기적 사보타주' 같은 특성을 벤치마킹했다. Bloom은 최근 출시된 또 다른 도구인 Petri를 보완하도록 설계되었다. Petri가 새로운 유형의 정렬 미비 문제를 발견하는 감사자 역할을 한다면, Bloom은 정밀도와 측정에 특화되어 있다. 연구자는 이를 통해 모델의 능력이 향상됨에 따라 모델이 더 잘 정렬되고 있는지 혹은 정렬 수준이 떨어지고 있는지 파악할 수 있다. 앤스로픽은 이 도구를 오픈 소스로 공개함으로써 연구 커뮤니티가 모델 규모가 커짐에 따라 발생하는 예기치 못한 행동인 창발적 특성을 추적하고, 개발 전 과정에서 AI Safety를 확보할 수 있는 표준화된 방법을 제공하고자 한다. 이 프레임워크는 평가 프로세스의 DNA 역할을 하는 시드 파일을 통해 고도의 설정이 가능하다. 이 파일들은 각 단계에서 사용되는 행동, 예시, 모델을 지정한다. 이러한 재현성은 서로 다른 팀과 시점 간에 지표를 공정하게 비교할 수 있도록 보장한다. 이 도구는 현재 깃허브에서 이용 가능하며, 대화형 테스트와 더불어 복잡한 가상 도구 사용 환경을 모두 지원한다.