이 기사의 핵심 내용은?

GLM 5.2는 보안 벤치마크에서 39%의 F1 점수를 기록하며 32%에 그친 Claude Code를 앞섰다. Semgrep 연구에 따르면 오픈 가중치 모델은 최전선 AI 에이전트 대비 1/6 수준의 비용으로 경쟁력을 확보했다. 이번 연구는 모델 성능만큼이나 코드 저장소를 탐색하는 하네스 스캐폴딩이 탐지 정확도에 결정적임을 시사한다.

GLM 5.2, 보안 벤치마크서 Claude 추월

•GLM 5.2는 보안 벤치마크에서 39%의 F1 점수를 기록하며 32%에 그친 Claude Code를 앞섰다.
•Semgrep 연구에 따르면 오픈 가중치 모델은 최전선 AI 에이전트 대비 1/6 수준의 비용으로 경쟁력을 확보했다.
•이번 연구는 모델 성능만큼이나 코드 저장소를 탐색하는 하네스 스캐폴딩이 탐지 정확도에 결정적임을 시사한다.

•GLM 5.2는 보안 벤치마크에서 39%의 F1 점수를 기록하며 32%에 그친 Claude Code를 앞섰다.
•Semgrep 연구에 따르면 오픈 가중치 모델은 최전선 AI 에이전트 대비 1/6 수준의 비용으로 경쟁력을 확보했다.
•이번 연구는 모델 성능만큼이나 코드 저장소를 탐색하는 하네스 스캐폴딩이 탐지 정확도에 결정적임을 시사한다.

Semgrep 보안 연구팀은 최신 AI 코딩 에이전트와 오픈 가중치 모델의 IDOR(Insecure Direct Object Reference) 탐지 성능을 비교 평가했다. IDOR은 애플리케이션이 사용자 ID 등 내부 객체 식별자를 URL에 노출하면서 적절한 접근 권한 확인을 거치지 않을 때 발생하는 취약점이다. 이번 평가는 취약점 탐지 성능이 모델 자체의 원시 능력에 기인하는지, 혹은 코드 저장소 탐색 및 출력 파싱을 돕는 구조적 하네스(스캐폴딩)에 의해 결정되는지를 분석하는 데 초점을 맞췄다.

Semgrep의 엔드포인트 탐색용 하네스를 갖춘 멀티모달 파이프라인은 GPT 5.5 모델에서 61%, Opus 4.8 모델에서 53%의 F1 점수를 기록했다. 반면 별도의 탐색 가이드 없이 단순 프롬프트만 제공된 환경에서는 지푸AI(Zhipu AI)의 오픈 가중치 모델인 GLM 5.2가 두각을 나타냈다. GLM 5.2는 39%의 F1 점수를 기록하며 32%인 Claude Code를 상회했고, 취약점 하나당 약 $0.17의 운영 비용을 보였다. 그 외 MiniMax M3는 23%, Kimi K2.7 Code는 22%의 점수를 나타냈다.

GLM 5.2는 전체 파라미터 7500억 개 중 토큰당 400억 개를 활성화하는 Mixture-of-Experts(MoE) 구조로 설계됐다. 2026년 6월 13일 지푸AI 회원에게 공개된 뒤 6월 16일 오픈 가중치 모델로 전환되었으며, 100만 토큰의 컨텍스트 윈도우를 지원한다. 지푸AI는 학습 과정에서 모델이 평가 지표를 악용해 점수를 올리는 리워드 해킹 현상이 관찰되어 별도의 방어 가드를 적용했다고 밝혔다. 그럼에도 연구진은 오픈 가중치 모델이 최전선 에이전트와 1/6 수준의 비용으로 경쟁할 수 있게 된 점이 자체 인프라를 구축하려는 보안 팀에 중요한 이정표가 될 것이라고 평가했다.

결론적으로 하네스 구조가 여전히 성능을 좌우하는 가장 큰 요인이지만, GLM 5.2의 등장은 오픈 가중치 모델이 더 이상 보조적인 수단에 머물지 않음을 증명한다. 다만 이번 결과는 특정 과제에 국한된 것이며, 서버 사이드 요청 위조(SSRF) 등 다른 취약점 유형에서는 성능이 달라질 수 있다고 연구팀은 덧붙였다.

Semgrep 보안 연구팀은 최신 AI 코딩 에이전트와 오픈 가중치 모델의 IDOR(Insecure Direct Object Reference) 탐지 성능을 비교 평가했다. IDOR은 애플리케이션이 사용자 ID 등 내부 객체 식별자를 URL에 노출하면서 적절한 접근 권한 확인을 거치지 않을 때 발생하는 취약점이다. 이번 평가는 취약점 탐지 성능이 모델 자체의 원시 능력에 기인하는지, 혹은 코드 저장소 탐색 및 출력 파싱을 돕는 구조적 하네스(스캐폴딩)에 의해 결정되는지를 분석하는 데 초점을 맞췄다.

Semgrep의 엔드포인트 탐색용 하네스를 갖춘 멀티모달 파이프라인은 GPT 5.5 모델에서 61%, Opus 4.8 모델에서 53%의 F1 점수를 기록했다. 반면 별도의 탐색 가이드 없이 단순 프롬프트만 제공된 환경에서는 지푸AI(Zhipu AI)의 오픈 가중치 모델인 GLM 5.2가 두각을 나타냈다. GLM 5.2는 39%의 F1 점수를 기록하며 32%인 Claude Code를 상회했고, 취약점 하나당 약 $0.17의 운영 비용을 보였다. 그 외 MiniMax M3는 23%, Kimi K2.7 Code는 22%의 점수를 나타냈다.

GLM 5.2는 전체 파라미터 7500억 개 중 토큰당 400억 개를 활성화하는 Mixture-of-Experts(MoE) 구조로 설계됐다. 2026년 6월 13일 지푸AI 회원에게 공개된 뒤 6월 16일 오픈 가중치 모델로 전환되었으며, 100만 토큰의 컨텍스트 윈도우를 지원한다. 지푸AI는 학습 과정에서 모델이 평가 지표를 악용해 점수를 올리는 리워드 해킹 현상이 관찰되어 별도의 방어 가드를 적용했다고 밝혔다. 그럼에도 연구진은 오픈 가중치 모델이 최전선 에이전트와 1/6 수준의 비용으로 경쟁할 수 있게 된 점이 자체 인프라를 구축하려는 보안 팀에 중요한 이정표가 될 것이라고 평가했다.

결론적으로 하네스 구조가 여전히 성능을 좌우하는 가장 큰 요인이지만, GLM 5.2의 등장은 오픈 가중치 모델이 더 이상 보조적인 수단에 머물지 않음을 증명한다. 다만 이번 결과는 특정 과제에 국한된 것이며, 서버 사이드 요청 위조(SSRF) 등 다른 취약점 유형에서는 성능이 달라질 수 있다고 연구팀은 덧붙였다.