返回

文章详情

GLM-5.2:迄今为止最强大的开放模型及其运行的残酷现实

Hacker News2026年6月19日 01:58

每隔几周,“最佳开放模型”的宝座就会更换。这周,它是来自中国实验室 Z.ai 的 GLM-5.2——而且这个声称是有据可依的:它在独立的人工智能分析指数上排名第一。它还获得了 MIT 许可,具有百万个代币的上下文,并配备了一种真正聪明的架构技巧。那么你应该下载它吗?这就是问题的有趣之处——因为完整的权重大小为 1.51 TB,而“本地运行”在这里意味着一些非常特定的东西。我们自己还没有运行它;接下来将综合 Z.ai 的文档、独立基准、所有者报告和硬件数学。它是什么——以及 Z.ai 声称 GLM-5.2 是一种专家混合模型:7530 亿个总参数,每个令牌约 400 亿个活跃参数(对于任何给定的令牌,只有一小部分网络会激活——这也是如此大规模的模型能够运行的原因;具体请参阅我们的 MoE 解释)。根据 Z.ai 的发布,它是文本模型,具有 100 万个令牌的上下文窗口(高于 GLM-5.1 的 20 万),并在 Hugging Face 上以宽松的 MIT 许可发布,网址为 zai-org/GLM-5.2。开放权重于 2026 年 6 月 16 日公开,此前仅进行了编码计划的软启动。标题数字是真实且来源独立的:正如西蒙·威利森(Simon Willison)所记录的,GLM-5.2 在版本 4.1 的人工智能分析指数中排名第一,得分 51,领先于 MiniMax-M3、DeepSeek V4 Pro(均为 44)和 Kimi K2.6(43)——使其成为该排行榜上最强大的开放权重模型。Z.ai 将其推销为主动编码;VentureBeat 报道称 Z.ai 宣称它在多个长时程编码基准中以一小部分成本超越 GPT-5.5。将最后一点视为厂商的声明——在面对面的 Code Arena WebDev 板上,它名列第二,仅次于 Claude Fable 5。强大,但并非不可触及。大多数“点发行”只是更多的训练。GLM-5.2 的突出之处在于架构。根据 Z.ai 的技术博客(并在 latent.space 的写作中总结),IndexShare 在每四个稀疏注意力层之间重用一个轻量级的“索引器”——这个索引器运行一次,其 top-k 令牌选择被重用于接下来的三个层。收益:在完整的百万令牌上下文中,声称每个令牌的计算(FLOPs)减少了 2.9 倍,模型从中期训练开始就是这样训练的,而不是后续附加上的。与推测解码(MTP)层相关的调整声称可以将接受长度提高 20%。简单来说:这是旨在使百万令牌上下文可负担得起的共设计——对于长时程编码代理,该种效率工作才真的重要,而不是追求基准的花招。所有者和评论者实际发现的情况独立的反响温暖但并非毫无批评。西蒙·威利森的印象测试两面性均有:他的“骑自行车的鹈鹕”SVG“是一幅非常漂亮的矢量插图……非常令人印象深刻”,而同一模型中的负鼠却“远不如 GLM-5.1!”——这提醒我们,排名第一的指数分数并不意味着每个输出都能成功。在 Hacker News 上,主流的声音是对中国实验室“愿意分享他们的工作”的感激,这在专有发布逐渐紧缩之际成为一个反复出现的主题。为了进行实际操作,AI 硬件评论员 Bijan Bowen 进行了 33 分钟的编码会话 。他的“浏览器操作系统”和游戏构建是亮点——一个 GTA 风格的“黑帮城市”克隆,他形容为“可以说是我见过的最合适的城市规模结果之一”,以及配备正常运行的警察追逐逻辑和将每个窗口提升到 3D 星域的光滑 WebGL 效果。他不断碰到的困扰是:这个模型对令牌饥渴且完成速度慢——一个构建约花了 15 分钟,而 GLM-5.2 每个任务消耗大约 43k 输出令牌(而 GLM-5.1 为 26k),这对于按令牌付费或在本地硬件上等待都是重要的。社区还指出的另一件事是:使用 Z.ai 的托管 API 引发了一些用户的数据驻留问题。这实际上是支持开放权重的理由——在自己的硬件上运行它是使用此模型的隐私洁净方式。这使我们回到一个本地 AI 网站最重要的问题。你能实际运行它吗?诚实的硬件现实在这里,浪漫与规格书相遇。完整的 BF16 权重为 1.51 TB 。即使是高度量化的,GLM-5.2 对于普通设备来说也不是一个“下载即用”的模型:需要的量化内存 运行它的现实 Q4_K_M(4-bit) ~476 GB 多 GPU 服务器(2× A100 80GB / 4× RTX 6000 Ada)仅限数据中心 2-bit 动态 (Unsloth UD-IQ2_XXS) ~241 GB 256GB+ 统一内存的 Mac Studio(M3/M4 Ultra) ~3-9 tok/s 1-bit 动态 (UD-TQ1_0) ~176 GB 仍需 256GB;128GB 的 Strix Halo 盒子无法容纳它 质量骤降 因此,实际的本地选项非常狭窄,根据 Unsloth 的 GGUF 注释:如果你想要本地 + 私密:一台具有 256-512 GB 统一内存的 Mac Studio M3 Ultra 可以容纳 2-bit 动态量化,并以大约 3-9 令牌/秒的速度生成——可用作异步代理运行,对于聊天来说痛苦。这是唯一能运行 GLM-5.2 的单盒消费机器。请注意,甚至 128GB 的 Strix Halo 盒子或...

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡