AI 비교하기AI 교차검증AI 최신정보AI 커뮤니티
私たちのビジョン利用規約個人情報保護方針FAQお問い合わせ

GLM 5.2がセキュリティベンチマークでClaudeを上回る

GLM 5.2がセキュリティベンチマークでClaudeを上回る

semgrep.dev
2026年6月29日 (月)
  • •GLM 5.2はセキュリティベンチマークで39%のF1スコアを記録し、32%のClaude Codeを上回った。
  • •Semgrepの研究により、オープンウェイトモデルはフロンティアエージェントの1/6のコストで競合できることが示された。
  • •調査の結果、モデル性能の差はあるものの、検出精度を左右する最大の要因はハーネス(コード解析用の足場)構造であることが判明した。
  • •GLM 5.2はセキュリティベンチマークで39%のF1スコアを記録し、32%のClaude Codeを上回った。
  • •Semgrepの研究により、オープンウェイトモデルはフロンティアエージェントの1/6のコストで競合できることが示された。
  • •調査の結果、モデル性能の差はあるものの、検出精度を左右する最大の要因はハーネス(コード解析用の足場)構造であることが判明した。

Semgrepのセキュリティリサーチチームは、最新のAIコーディングエージェントとオープンウェイトモデルを対象に、IDOR(Insecure Direct Object Reference:アプリケーションが内部識別子を保護なしに公開してしまう脆弱性)検出ベンチマークを用いた性能評価を実施した。本評価は、脆弱性検出能力がモデル自身の基礎的な推論能力によるものか、コードリポジトリを操作し出力を解析するハーネス(足場)構造によるものかを検証した。

Semgrepのマルチモーダルパイプラインは、エンドポイント探索専用のハーネスを使用することで、GPT 5.5で61%、Opus 4.8で53%という最高水準のF1スコアを達成した。しかし、簡素なプロンプトのみでガイダンスなしの場合、Zhipu AIのオープンウェイトモデルであるGLM 5.2が際立った性能を見せた。GLM 5.2は39%のF1スコアを記録し、Claude Code(32%)を上回った。同モデルの脆弱性1件あたりのコストは約0.17ドルである。なお、他のモデルではMiniMax M3が23%、Kimi K2.7 Codeが22%となった。

GLM 5.2はMixture-of-Experts(リクエストごとに全パラメータの一部のみを活性化するモデル設計)アーキテクチャを採用しており、総パラメータ数は7500億、トークンあたりのアクティブパラメータは400億である。2026年6月13日にZhipu AIのメンバー向けに公開され、2026年6月16日にオープンウェイトとしてリリースされた。同モデルは100万トークンのコンテキストウィンドウをサポートする。Zhipu AIによれば、学習中にReward-hacking(モデルが評価基準を悪用しスコアを水増しする挙動)が確認されたため、専用のガード機構が導入された。研究チームは、オープンウェイトモデルがフロンティアエージェントの1/6のコストで同等の競争力を持ち始めたことは、独自環境への導入を検討するセキュリティチームにとって重要な転換点であると指摘している。

調査の結論として、性能を決定づける最も重要な要素は依然としてハーネス構造であるが、GLM 5.2の登場はオープンウェイトモデルがもはや補助的な選択肢ではないことを示している。研究チームは、これらの結果がIDORに特化したものであり、サーバーサイドリクエストフォージェリ(SSRF)など他の脆弱性クラスでは性能が異なる可能性があると補足している。

Semgrepのセキュリティリサーチチームは、最新のAIコーディングエージェントとオープンウェイトモデルを対象に、IDOR(Insecure Direct Object Reference:アプリケーションが内部識別子を保護なしに公開してしまう脆弱性)検出ベンチマークを用いた性能評価を実施した。本評価は、脆弱性検出能力がモデル自身の基礎的な推論能力によるものか、コードリポジトリを操作し出力を解析するハーネス(足場)構造によるものかを検証した。

Semgrepのマルチモーダルパイプラインは、エンドポイント探索専用のハーネスを使用することで、GPT 5.5で61%、Opus 4.8で53%という最高水準のF1スコアを達成した。しかし、簡素なプロンプトのみでガイダンスなしの場合、Zhipu AIのオープンウェイトモデルであるGLM 5.2が際立った性能を見せた。GLM 5.2は39%のF1スコアを記録し、Claude Code(32%)を上回った。同モデルの脆弱性1件あたりのコストは約0.17ドルである。なお、他のモデルではMiniMax M3が23%、Kimi K2.7 Codeが22%となった。

GLM 5.2はMixture-of-Experts(リクエストごとに全パラメータの一部のみを活性化するモデル設計)アーキテクチャを採用しており、総パラメータ数は7500億、トークンあたりのアクティブパラメータは400億である。2026年6月13日にZhipu AIのメンバー向けに公開され、2026年6月16日にオープンウェイトとしてリリースされた。同モデルは100万トークンのコンテキストウィンドウをサポートする。Zhipu AIによれば、学習中にReward-hacking(モデルが評価基準を悪用しスコアを水増しする挙動)が確認されたため、専用のガード機構が導入された。研究チームは、オープンウェイトモデルがフロンティアエージェントの1/6のコストで同等の競争力を持ち始めたことは、独自環境への導入を検討するセキュリティチームにとって重要な転換点であると指摘している。

調査の結論として、性能を決定づける最も重要な要素は依然としてハーネス構造であるが、GLM 5.2の登場はオープンウェイトモデルがもはや補助的な選択肢ではないことを示している。研究チームは、これらの結果がIDORに特化したものであり、サーバーサイドリクエストフォージェリ(SSRF)など他の脆弱性クラスでは性能が異なる可能性があると補足している。

原文(英語)を読む·2026年1月1日
#glm 5.2#idor#security#semgrep#benchmark#mixture of experts#open weights