この記事の要点は？

セキュリティ研究者のKasraは、脆弱なFirebase設定を持つReact Nativeアプリを用いてLLMの悪用能力を検証した。 GPT-5.5が70%の成功率を記録した一方、Deepseek-V4-Proは30%、Claude-Sonnet-4.6は20%の成功率にとどまった。総額1,500ドルの実験において、モデルごとのセキュリティ拒絶反応やAPI信頼性の欠如といった課題が浮き彫りとなった。

LLMの脆弱性悪用能力：評価試験の結果

•セキュリティ研究者のKasraは、脆弱なFirebase設定を持つReact Nativeアプリを用いてLLMの悪用能力を検証した。
•GPT-5.5が70%の成功率を記録した一方、Deepseek-V4-Proは30%、Claude-Sonnet-4.6は20%の成功率にとどまった。
•総額1,500ドルの実験において、モデルごとのセキュリティ拒絶反応やAPI信頼性の欠如といった課題が浮き彫りとなった。

•セキュリティ研究者のKasraは、脆弱なFirebase設定を持つReact Nativeアプリを用いてLLMの悪用能力を検証した。
•GPT-5.5が70%の成功率を記録した一方、Deepseek-V4-Proは30%、Claude-Sonnet-4.6は20%の成功率にとどまった。
•総額1,500ドルの実験において、モデルごとのセキュリティ拒絶反応やAPI信頼性の欠如といった課題が浮き彫りとなった。

セキュリティ研究者のKasraは、LLMが悪用可能な脆弱性を持つ書籍レビューアプリを攻撃できるかを調査するため、自費で1,500ドルを投じて実験を実施した。対象のアプリはFastAPIバックエンド、React Native Expoフロントエンド、そしてgoogle-services.jsonファイルがハードコードされたFirebaseデータ層で構成されていた。目的は、Firebaseの認証情報を悪用してユーザー登録を行い、Firestoreデータベース内のプライベートデータにアクセスすることであり、これはBroken Access Control（不適切なアクセス制御）やMissing Object-Level Authorization（オブジェクトレベルの認可欠如）として知られる一般的なセキュリティ欠陥を突くものだった。

実験では大半のモデルに対し10回の試行を行い、1回あたり10ドルの予算と2時間の制限時間を設けた。GPT-5.5が70%（7/10）という最高の成功率を記録し、次いでDeepseek-V4-Proが30%（3/10）、Claude-Sonnet-4.6とClaude-Opus-4.8が共に20%（2/10）だった。Gemini-3.1-Pro-Preview、Gemini-3.5-Flash、MiniMax-M2.7、Step-3.7-Flashを含む他のモデルは、各10回の試行で一度も成功を収められなかった。

その他のモデルによる検証結果はまちまちである。Kimi-K2.6は1回の試行で成功し、GLM-5.1は25%（1/4）の成功率を示したが、Qwen-3.7-Max、Grok-Build-0.1、MiniMax-M3、Owl-Alphaなどは攻略に失敗した。Kasraによれば、中国系のモデルはデータベースへ直接対話する傾向が強い一方、他モデルは内部セキュリティガードレールによる拒絶反応が頻発するか、脆弱性がFirebase設定にあるにもかかわらずAPIへの攻撃に固執する傾向が見られた。

実験効率とコストには運用上の課題が大きく影響した。MiniMaxとGLMではAPIの停止が頻発し、Qwen-3.7-Maxでは1回あたり平均732万トークンという高い消費量が見られ、ホスティングプラットフォームのModalによってテストエージェントが中断される事態も発生した。Kasraは、自動評価用ハーネスの構築自体がセキュリティテストよりも困難であったと指摘し、各プロバイダー間でのテスト統合の難しさが不要な支出を招いたと結論付けている。なお、研究結果と脆弱なテスト用アプリは公開されており、検証が可能である。

セキュリティ研究者のKasraは、LLMが悪用可能な脆弱性を持つ書籍レビューアプリを攻撃できるかを調査するため、自費で1,500ドルを投じて実験を実施した。対象のアプリはFastAPIバックエンド、React Native Expoフロントエンド、そしてgoogle-services.jsonファイルがハードコードされたFirebaseデータ層で構成されていた。目的は、Firebaseの認証情報を悪用してユーザー登録を行い、Firestoreデータベース内のプライベートデータにアクセスすることであり、これはBroken Access Control（不適切なアクセス制御）やMissing Object-Level Authorization（オブジェクトレベルの認可欠如）として知られる一般的なセキュリティ欠陥を突くものだった。

実験では大半のモデルに対し10回の試行を行い、1回あたり10ドルの予算と2時間の制限時間を設けた。GPT-5.5が70%（7/10）という最高の成功率を記録し、次いでDeepseek-V4-Proが30%（3/10）、Claude-Sonnet-4.6とClaude-Opus-4.8が共に20%（2/10）だった。Gemini-3.1-Pro-Preview、Gemini-3.5-Flash、MiniMax-M2.7、Step-3.7-Flashを含む他のモデルは、各10回の試行で一度も成功を収められなかった。

その他のモデルによる検証結果はまちまちである。Kimi-K2.6は1回の試行で成功し、GLM-5.1は25%（1/4）の成功率を示したが、Qwen-3.7-Max、Grok-Build-0.1、MiniMax-M3、Owl-Alphaなどは攻略に失敗した。Kasraによれば、中国系のモデルはデータベースへ直接対話する傾向が強い一方、他モデルは内部セキュリティガードレールによる拒絶反応が頻発するか、脆弱性がFirebase設定にあるにもかかわらずAPIへの攻撃に固執する傾向が見られた。

実験効率とコストには運用上の課題が大きく影響した。MiniMaxとGLMではAPIの停止が頻発し、Qwen-3.7-Maxでは1回あたり平均732万トークンという高い消費量が見られ、ホスティングプラットフォームのModalによってテストエージェントが中断される事態も発生した。Kasraは、自動評価用ハーネスの構築自体がセキュリティテストよりも困難であったと指摘し、各プロバイダー間でのテスト統合の難しさが不要な支出を招いたと結論付けている。なお、研究結果と脆弱なテスト用アプリは公開されており、検証が可能である。