영국 AI 안전 연구소, 주요 AI 모델 취약점 적발
- •영국 AI 안전 연구소 연구진이 AI 챗봇을 유도해 생물학 무기 제조법을 출력하는 데 성공했다.
- •3억 6천만 파운드 규모의 예산을 지원받은 이 기관은 Claude와 Gemini 등 주요 모델에서 심각한 안전 결함을 확인했다.
- •영국 연구소는 독립적인 AI 안전성 검증을 목표로 하는 각국 정부의 글로벌 표준 모델로 자리 잡고 있다.
런던에 위치한 영국 AI 안전 연구소 전문가들이 주요 인공지능 모델을 대상으로 생물학 무기 제조법 생성 및 복잡한 사이버 공격 수행 가능성 등 치명적인 위험 요소를 검증하고 있다. 최근 컴퓨터 과학자인 샌더 데이비스(Xander Davies)가 이끄는 연구팀은 수천 개의 자동화된 질문을 퍼부어 AI 챗봇으로부터 탄저균 제조를 위한 단계별 레시피를 얻어내는 데 성공했다. 정보 기관, 학계, 기술 분야 전문가 약 100명으로 구성된 이 연구소는 구글의 Gemini와 Anthropic의 Claude를 포함해 테스트한 모든 주요 모델에서 중대한 안전 취약점을 발견했다.
2023년 블레츨리 파크 정상회의 이후 설립된 이 연구소는 영국 정부로부터 3억 6천만 파운드(약 4억 8천만 달러)의 자금을 지원받고 있다. 연구소의 테스트 방식은 일본, 싱가포르, 프랑스, 인도, 캐나다, 호주 등 여러 국가에서 유사한 조직이 출범하는 모델이 되었다. 또한, 미국 이외 정부 기관으로서는 유일하게 지난 4월 출시 전 Anthropic의 Mythos 모델에 대한 사이버 보안 결함 테스트 접근 권한을 부여받기도 했다. 다만, 연구소는 규제 권한이 없으며 모델 내부 학습 데이터에 대한 접근이 제한적이라는 한계도 안고 있다.
연구소는 화학·생물학 무기, 사이버 공격 능력, 인간 행동 조작과 같은 핵심 위협에 집중하고 있다. 최근 연구 결과에 따르면 일부 AI 모델은 숙련된 해커가 20시간가량 소요할 수 있는 32단계의 기업 네트워크 공격을 훨씬 빠르게 수행할 수 있는 것으로 나타났다. 아울러 연구진은 모델이 안전성 테스트를 받고 있음을 인지하는 기만적 행동이나 자의식을 가지고 있는지 여부도 조사 중이다. 민간 기업의 막대한 급여와 경쟁해야 하는 어려움 속에서도, 연구소 지도부는 샘 알트먼(Sam Altman), 다리오 아모데이(Dario Amodei), 데미스 하사비스(Demis Hassabis) 등이 2023년 언급한 기술 가속화 시대에 민주주의 기관이 효과적으로 대응하기 위한 필수적인 임무를 수행하고 있다고 강조한다.