Semgrep：GLM 5.2 在我们的网络基准测试中超越 Claude

我们对一系列流行的开源模型进行了评估，使用了我们用于评估前沿编码代理的相同数据集和相同提示。结果让我们感到惊讶：来自 Zhipu AI 的开源模型 GLM 5.2 在 IDOR 检测中得分 39% 的 F1，超越了 Claude Code 的 32%，每个找到的漏洞的成本大约为 0.17 美元。尽管它仍然落后于 Semgrep 的多模态流程（53–61% 的 F1），但该流程在一个专门构建的框架内运行，承担了大量的重担。在仅给出提示的模型中，最佳的开源选择不再是显而易见的黑马，超越了 Claude Opus 4.8。我们真实并不是想要给出一个开源冠军，而是试图回答一个更加狭窄、枯燥的问题：漏洞检测性能有多少来自模型，多少来自周围的框架？对于我们 Semgrep 团队来说，这个问题非常重要，因为我们与在安全任务中大量利用 AI 代理的客户沟通。框架就是包裹模型的支架：它为模型提供代码库，决定它所看到的内容，解析其输出，并循环进行任务。我们的内部多模态流程在一个为静态分析专门构建的框架内运行。我们已经内部测试了一段时间，工作流程用于查找 IDOR 或不安全的直接对象引用。这些是访问控制问题，可以大致理解为“你正在访问另一个用户的东西”。我们的框架枚举应用程序的端点，代码尝试筛选出重要的上下文，然后直接将模型指向这些内容。这是大量的结构，但请记住，当我说我们真的不想回答哪个是最好的开源模型时，这些模型在测试中没有得到这种支持，它们在一个简单的 Pydantic AI 框架中运行，使用相同的 IDOR 提示，我们给每一个 LLM 提供模型，没有端点发现，没有指导性导航，我们确实给了一些帮助，只比“这里是代码，找出漏洞”稍微多一点，提供了一些搜索策略和有关 IDOR 的一些提示。因此，这一开始是一个提示与框架的实验，但在我们运行的过程中，我们真心感到震惊。一个开源模型，在没有我们任何支架的情况下，超越了一个前沿编码代理。介绍 GLM-5.2 如果你没听说过 GLM-5.2，别担心，我们也是直到在社交媒体上看到之后，才想到把它添加到我们的基准测试中。GLM 5.2 是 Zhipu AI（Z.ai）推出的最新模型，于 2026 年 6 月 13 日星期六正式向 GLM 编码计划成员发布，开放权重和发布说明在 6 月 16 日发布（那时我们才听说它）。有三件事使其在安全工作中变得有趣。首先，它是开放权重。这意味着模型的参数在 MIT 许可证下发布，你可以下载它们，在自己的硬件上运行，微调和检查它们。对于许多在敏感领域工作的安全团队来说，这一点很重要，开放权重模型可以完全在你自己的环境中运行。但需要注意的是，“开放权重”并不等同于“开源”，训练的权重被发布，但训练数据和完整流程通常不是（尽管 Z.ai 确实发布了其 RL 训练框架）。第二，它在编码方面确实具有竞争力。GLM 5.2 是一个混合专家（MoE）模型，拥有大约 7500 亿个总参数，但每个标记只有大约 400 亿个活跃参数，这相对其规模降低了推理成本。它将可用上下文从 200K 扩展到 1M 个标记，Z.ai 的宣传是，这个上下文在长时间的复杂代理轨迹中保持可靠，而不仅仅是接受更多输入。同样，对于安全任务来说，这一点很重要，因为 IDOR 等的安全任务必须能够跨不同文件推理，通过授权框架。在标准编码基准测试中，它在开放权重上发布了最强的数字：在 Terminal-Bench 2.1 上得分 81.0（相对于 GLM 5.1 的 63.5，和 Claude Opus 4.8 的 85.0 相比，仅差几分），以及在 SWE-bench Pro 上得分 62.1，略微超越了封闭前沿模型，和排名前列的模型仅差单点百分点。第三，成本。代币经济学变得和 LLM 能力本身一样重要。报告的定价约为可比前沿模型的六分之一，密切关注开放模型的评论员将 GLM 5.2 的接受度与 DeepSeek 进行了比较。GLM-5.2 在一个敏感时期推出，不仅因为代币经济学，还因为在报道的越狱事件后，前沿级封闭模型刚刚遭遇新的出口限制。发布说明中的一个细节值得为任何对代码进行建模的人标记：Z.ai 报告称，GLM 5.2 展现出了比 GLM 5.1 更多的奖励入侵行为，在训练期间，它会做一些诸如阅读受保护的评估文件或抓取参考解决方案以提高其得分的事情，促使他们建立一个专门的反黑客保护。