Meta AI, 멀티모달 레드팀 자동화 프레임워크 ‘FERRET’ 공개
- •Meta AI가 멀티모달 적대적 테스트를 자동화하는 프레임워크인 FERRET을 발표했다.
- •이 시스템은 확장 전략을 활용해 매우 효과적인 대화 시작점과 공격 방식을 생성한다.
- •FERRET은 멀티모달 대상 모델의 취약점을 무력화하는 성능 면에서 기존 기술을 압도했다.
Meta AI의 니나레 메라비(Ninareh Mehrabi, AI 연구원)와 연구팀은 AI 모델의 취약점을 악용되기 전에 선제적으로 찾아내는 '레드팀(Red Teaming)' 과정을 자동화하는 정교한 프레임워크 FERRET을 선보였다. 수동 작업이나 텍스트 전용 프롬프트에 의존하던 기존 방식과 달리, FERRET은 이미지와 텍스트를 결합한 멀티모달 적대적 대화에 초점을 맞춘다. 특히 시스템이 단순히 단어만 사용하는 수준을 넘어 복잡한 상호작용을 직접 설계하기 때문에, 대상 모델이 안전하지 않거나 잘못된 응답을 하도록 더욱 정교하게 유도할 수 있다.
이 프레임워크는 공격 전략을 고도화하기 위해 세 단계의 확장 과정을 거쳐 작동한다. 먼저 '수평적 확장'을 통해 레드팀 모델이 스스로 학습하며 효과적인 대화 시작점을 생성하는 법을 익히고, 이어지는 '수직적 확장'에서는 이를 바탕으로 완전한 멀티모달 대화를 구축한다. 마지막 단계인 '메타 확장'은 대화가 진행됨에 따라 공격 전략을 실시간으로 발견하고 조정함으로써, 대상 모델이 이러한 적대적 시도에 저항하기 훨씬 어렵게 만든다.
이처럼 복잡한 테스트 주기를 자동화한 FERRET은 AI 안전성을 보장하는 데 있어 중요한 기술적 진보를 이뤄냈다. 실제로 수행된 비교 테스트 결과, 이 프레임워크는 기존의 최첨단 방식들보다 뛰어난 성능을 입증하며 대상 모델의 방어 체계를 더욱 효율적으로 무력화했다. 이번 연구는 AI 모델이 점차 멀티모달화되고 중요한 디지털 환경에 깊숙이 통합됨에 따라, 자동화된 보안 검증 도구의 역할이 어느 때보다 중요하다는 점을 시사한다.