이 기사의 핵심 내용은?

보안 연구원 카스라(Kasra)가 Firebase 설정이 취약한 React Native 앱을 대상으로 LLM의 공격 능력을 실험했다. 실험 결과 GPT-5.5가 70%의 성공률을 기록한 반면, Deepseek-V4-Pro와 Claude-Sonnet-4.6은 각각 30%와 20%에 그쳤다. 1,500달러를 투입한 이번 연구는 모델별 보안 거부 반응과 API 신뢰성 문제를 드러냈다.

LLM 취약점 공격 성공률 평가 결과

•보안 연구원 카스라(Kasra)가 Firebase 설정이 취약한 React Native 앱을 대상으로 LLM의 공격 능력을 실험했다.
•실험 결과 GPT-5.5가 70%의 성공률을 기록한 반면, Deepseek-V4-Pro와 Claude-Sonnet-4.6은 각각 30%와 20%에 그쳤다.
•1,500달러를 투입한 이번 연구는 모델별 보안 거부 반응과 API 신뢰성 문제를 드러냈다.

보안 연구원 카스라(Kasra)는 1,500달러를 자비로 투입해 거대언어모델(LLM)이 취약점을 가진 도서 리뷰 애플리케이션을 공격할 수 있는지 확인하는 실험을 진행했다. 테스트 대상은 FastAPI 백엔드, React Native Expo 프런트엔드, 그리고 google-services.json 파일이 하드코딩되어 보안이 취약한 Firebase 데이터 계층으로 구성되었다. 목표는 Firebase 자격 증명을 이용해 사용자 등록 후 Firestore 데이터베이스의 비공개 데이터에 접근하는 것으로, 이는 잘못된 접근 제어(Broken Access Control)로 알려진 보안 결함이다.

대부분의 모델에 대해 10회씩 평가가 진행되었으며, 실행당 최대 예산은 10달러, 시간 제한은 2시간으로 설정되었다. 평가 결과 GPT-5.5가 70%(7/10)로 가장 높은 성공률을 보였으며, Deepseek-V4-Pro가 30%(3/10), Claude-Sonnet-4.6과 Claude-Opus-4.8이 각각 20%(2/10)를 기록했다. 반면 Gemini-3.1-Pro-Preview, Gemini-3.5-Flash, MiniMax-M2.7, Step-3.7-Flash 등은 10회 테스트에서 단 한 번도 성공하지 못했다.

추가 모델 테스트에서는 결과가 엇갈렸다. Kimi-K2.6은 단 1회 실행에서 성공했으나, GLM-5.1은 25%(1/4)의 성공률을 보였다. Qwen-3.7-Max, Grok-Build-0.1, MiniMax-M3, Owl-Alpha는 공격에 실패했다. 카스라는 중국 모델들이 데이터베이스와 직접 상호작용하려는 경향이 강한 반면, 타 모델들은 보안 거부 반응을 보이거나 취약점이 Firebase 설정에 있음에도 불구하고 API 공격에만 매몰되는 경향을 보였다고 분석했다.

실험 과정에서는 운영상 문제도 발생했다. 미니맥스와 GLM은 잦은 API 중단이 있었고, Qwen-3.7-Max는 실행당 평균 732만 토큰을 소모했다. 또한 호스팅 플랫폼인 Modal이 테스트 에이전트를 조기에 중단시키는 일도 잦았다. 카스라는 보안 테스트 자체보다 자동화 평가 도구를 구축하는 과정이 더 어려웠으며, 공급자별로 파편화된 테스트 환경으로 인해 불필요한 비용이 발생했다고 지적했다. 이번 연구 결과와 취약점 테스트 앱은 대중에게 공개되어 검증이 가능하다.

보안 연구원 카스라(Kasra)는 1,500달러를 자비로 투입해 거대언어모델(LLM)이 취약점을 가진 도서 리뷰 애플리케이션을 공격할 수 있는지 확인하는 실험을 진행했다. 테스트 대상은 FastAPI 백엔드, React Native Expo 프런트엔드, 그리고 google-services.json 파일이 하드코딩되어 보안이 취약한 Firebase 데이터 계층으로 구성되었다. 목표는 Firebase 자격 증명을 이용해 사용자 등록 후 Firestore 데이터베이스의 비공개 데이터에 접근하는 것으로, 이는 잘못된 접근 제어(Broken Access Control)로 알려진 보안 결함이다.

대부분의 모델에 대해 10회씩 평가가 진행되었으며, 실행당 최대 예산은 10달러, 시간 제한은 2시간으로 설정되었다. 평가 결과 GPT-5.5가 70%(7/10)로 가장 높은 성공률을 보였으며, Deepseek-V4-Pro가 30%(3/10), Claude-Sonnet-4.6과 Claude-Opus-4.8이 각각 20%(2/10)를 기록했다. 반면 Gemini-3.1-Pro-Preview, Gemini-3.5-Flash, MiniMax-M2.7, Step-3.7-Flash 등은 10회 테스트에서 단 한 번도 성공하지 못했다.

추가 모델 테스트에서는 결과가 엇갈렸다. Kimi-K2.6은 단 1회 실행에서 성공했으나, GLM-5.1은 25%(1/4)의 성공률을 보였다. Qwen-3.7-Max, Grok-Build-0.1, MiniMax-M3, Owl-Alpha는 공격에 실패했다. 카스라는 중국 모델들이 데이터베이스와 직접 상호작용하려는 경향이 강한 반면, 타 모델들은 보안 거부 반응을 보이거나 취약점이 Firebase 설정에 있음에도 불구하고 API 공격에만 매몰되는 경향을 보였다고 분석했다.

실험 과정에서는 운영상 문제도 발생했다. 미니맥스와 GLM은 잦은 API 중단이 있었고, Qwen-3.7-Max는 실행당 평균 732만 토큰을 소모했다. 또한 호스팅 플랫폼인 Modal이 테스트 에이전트를 조기에 중단시키는 일도 잦았다. 카스라는 보안 테스트 자체보다 자동화 평가 도구를 구축하는 과정이 더 어려웠으며, 공급자별로 파편화된 테스트 환경으로 인해 불필요한 비용이 발생했다고 지적했다. 이번 연구 결과와 취약점 테스트 앱은 대중에게 공개되어 검증이 가능하다.