GLM-5.2：迄今为止最强大的开放模型及其运行的残酷现实

每隔几周，“最佳开放模型”的宝座就会更换。这周，它是来自中国实验室 Z.ai 的 GLM-5.2——而且这个声称是有据可依的：它在独立的人工智能分析指数上排名第一。它还获得了 MIT 许可，具有百万个代币的上下文，并配备了一种真正聪明的架构技巧。那么你应该下载它吗？这就是问题的有趣之处——因为完整的权重大小为 1.51 TB，而“本地运行”在这里意味着一些非常特定的东西。我们自己还没有运行它；接下来将综合 Z.ai 的文档、独立基准、所有者报告和硬件数学。它是什么——以及 Z.ai 声称 GLM-5.2 是一种专家混合模型：7530 亿个总参数，每个令牌约 400 亿个活跃参数（对于任何给定的令牌，只有一小部分网络会激活——这也是如此大规模的模型能够运行的原因；具体请参阅我们的 MoE 解释）。根据 Z.ai 的发布，它是文本模型，具有 100 万个令牌的上下文窗口（高于 GLM-5.1 的 20 万），并在 Hugging Face 上以宽松的 MIT 许可发布，网址为 zai-org/GLM-5.2。开放权重于 2026 年 6 月 16 日公开，此前仅进行了编码计划的软启动。标题数字是真实且来源独立的：正如西蒙·威利森（Simon Willison）所记录的，GLM-5.2 在版本 4.1 的人工智能分析指数中排名第一，得分 51，领先于 MiniMax-M3、DeepSeek V4 Pro（均为 44）和 Kimi K2.6（43）——使其成为该排行榜上最强大的开放权重模型。Z.ai 将其推销为主动编码；VentureBeat 报道称 Z.ai 宣称它在多个长时程编码基准中以一小部分成本超越 GPT-5.5。将最后一点视为厂商的声明——在面对面的 Code Arena WebDev 板上，它名列第二，仅次于 Claude Fable 5。强大，但并非不可触及。大多数“点发行”只是更多的训练。GLM-5.2 的突出之处在于架构。根据 Z.ai 的技术博客（并在 latent.space 的写作中总结），IndexShare 在每四个稀疏注意力层之间重用一个轻量级的“索引器”——这个索引器运行一次，其 top-k 令牌选择被重用于接下来的三个层。收益：在完整的百万令牌上下文中，声称每个令牌的计算（FLOPs）减少了 2.9 倍，模型从中期训练开始就是这样训练的，而不是后续附加上的。与推测解码（MTP）层相关的调整声称可以将接受长度提高 20%。简单来说：这是旨在使百万令牌上下文可负担得起的共设计——对于长时程编码代理，该种效率工作才真的重要，而不是追求基准的花招。所有者和评论者实际发现的情况独立的反响温暖但并非毫无批评。西蒙·威利森的印象测试两面性均有：他的“骑自行车的鹈鹕”SVG“是一幅非常漂亮的矢量插图……非常令人印象深刻”，而同一模型中的负鼠却“远不如 GLM-5.1！”——这提醒我们，排名第一的指数分数并不意味着每个输出都能成功。在 Hacker News 上，主流的声音是对中国实验室“愿意分享他们的工作”的感激，这在专有发布逐渐紧缩之际成为一个反复出现的主题。为了进行实际操作，AI 硬件评论员 Bijan Bowen 进行了 33 分钟的编码会话。他的“浏览器操作系统”和游戏构建是亮点——一个 GTA 风格的“黑帮城市”克隆，他形容为“可以说是我见过的最合适的城市规模结果之一”，以及配备正常运行的警察追逐逻辑和将每个窗口提升到 3D 星域的光滑 WebGL 效果。他不断碰到的困扰是：这个模型对令牌饥渴且完成速度慢——一个构建约花了 15 分钟，而 GLM-5.2 每个任务消耗大约 43k 输出令牌（而 GLM-5.1 为 26k），这对于按令牌付费或在本地硬件上等待都是重要的。社区还指出的另一件事是：使用 Z.ai 的托管 API 引发了一些用户的数据驻留问题。这实际上是支持开放权重的理由——在自己的硬件上运行它是使用此模型的隐私洁净方式。这使我们回到一个本地 AI 网站最重要的问题。你能实际运行它吗？诚实的硬件现实在这里，浪漫与规格书相遇。完整的 BF16 权重为 1.51 TB 。即使是高度量化的，GLM-5.2 对于普通设备来说也不是一个“下载即用”的模型：需要的量化内存运行它的现实 Q4_K_M（4-bit） ~476 GB 多 GPU 服务器（2× A100 80GB / 4× RTX 6000 Ada）仅限数据中心 2-bit 动态 (Unsloth UD-IQ2_XXS) ~241 GB 256GB+ 统一内存的 Mac Studio（M3/M4 Ultra） ~3-9 tok/s 1-bit 动态 (UD-TQ1_0) ~176 GB 仍需 256GB；128GB 的 Strix Halo 盒子无法容纳它质量骤降因此，实际的本地选项非常狭窄，根据 Unsloth 的 GGUF 注释：如果你想要本地 + 私密：一台具有 256-512 GB 统一内存的 Mac Studio M3 Ultra 可以容纳 2-bit 动态量化，并以大约 3-9 令牌/秒的速度生成——可用作异步代理运行，对于聊天来说痛苦。这是唯一能运行 GLM-5.2 的单盒消费机器。请注意，甚至 128GB 的 Strix Halo 盒子或...