GLM 5.2 与 Opus
GLM-5.2 刚刚发布,这是开放模型又一步的进展。互联网马上反应强烈,真实和夸张很难分辨。所以我们将其与 Claude Opus 4.8 进行了一对一的对比:相同的单次提示,从零开始在原生 WebGL 中构建 3D 平台游戏。以下是我们在测试和深入分析基准结果及其热议后的看法。我们不会将主要工作转向 Opus。在我们的测试中,Opus 更快,并且发布了一个更干净、更正确的游戏,它可以检查自己的视觉输出,而仅限文本的 GLM-5.2 不能。但是 GLM-5.2 在我们的工具库中争取到了一个永久的位置:它是一个真正能干的模型,价格却只是其中的一个小部分,并且因为它是开放权重,它将始终可用。封闭模型可能会被退役或限制,通常没有太多警告(最近的 Fable 就是一个提醒);你可以下载的权重是无法被拿走的。你现在可以玩这两个游戏,或获取源码:GLM-5.2 的游戏:3dgame-glm.d.ritzademo.com Opus 的游戏:3dgame-opus.d.ritzademo.com 两者的源码:github.com/jamesdanielwhitford/glm-5.2-vs-opus-platformers 两者都是从零开始编写的浏览器游戏,没有使用游戏引擎或 3D 渲染库,如 Three.js。3D 模型是来自 Kenney 的 CC0 资源。以下是两次运行的比较:指标 GLM-5.2 (Pi/OpenRouter) Opus (Claude Code) 实际构建时间 1小时10分钟40秒 33分钟30秒 输出标记 131,000 216,809 峰值上下文窗口 1M 的 16% 1M 的 19% 工具调用 128 153 成本 $5.39(实际计费) ~$21.92(估算,列表价格) GLM-5.2 的成本远低于 Opus。Opus 用一半的时间完成并发布了一个更干净的游戏。从纸面上看,基准将 GLM-5.2 排在其他顶级闭源模型之后,网上的热议则掺杂着真正的信息和水军。我们在下面这场游戏之后深入探讨两者。什么是 GLM-5.2 GLM-5.2 是 Z.ai 最新的旗舰模型。其开放权重基于 MIT 许可证,所以你可以下载它、自己运行,或者通过 Z.ai 的 API 调用它。它旨在应对长时间任务,即运行数小时的长、步骤式编码代理工作。它配备了 1M 标记的上下文窗口和两个思考努力级别,High 和 Max,这两者在速度和能力之间进行了权衡。注意,GLM-5.2 仅限文本,不具备多模态能力。它不能读取图像,因此围绕截图或图表构建的工作流仍需要像 Claude Opus 这样的模型。Z.ai 将它的定位大致放在 Claude Opus 4.7 和 4.8 之间,使用的标记数量相似。如果你想了解更多,可以查看他们的公告:@Zai_org 在 X 上的定价和访问 因为它是开放权重,GLM-5.2 价格便宜。通过 API 调用时,它的费用是一小部分 Opus 的价格,如果你有硬件,可以免费运行它。定价,每 1M 标记(供应商文档): 输入 缓存读取 输出 Claude Opus 4.8 $5 $0.50 $25 GLM-5.2 $1.4 $0.26 $4.4 在输出标记上,GLM-5.2 的价格不到 Opus 的五分之一。权重在 Hugging Face 和 ModelScope 下的 MIT 许可证下提供,没有地区限制。你可以使用像 vLLM、SGLang 或 Transformers 等框架在本地提供服务。我们的氛围测试:从零开始制作 3D 游戏 为了突破氛围,我们给了 Opus 4.8 和 GLM-5.2 相同的单次提示:从零开始在原生 WebGL 中构建一个 3D 平台游戏,不使用游戏引擎或 3D 库。为什么选择这个任务 一个模型可以零次尝试制作一个好看的登陆页面,而社区已经将此视为一项不太重要的测试。一个在原生 WebGL 中制作的 3D 平台游戏不能在一个漂亮的文件中伪造。它有真实的结构:一个 GLB 模型解析器、矩阵和向量数学、GLSL 着色器、皮肤骨骼动画、固定时间步长循环、碰撞和跟随摄像头。这个结构同时测试人们争论的两件事。将多层、多文件的构建在多个步骤中结合在一起是代理部分,GLM-5.2 在这方面应该表现强劲。弄清楚引擎内部的正确性,那些看起来不错但却悄悄出错的部分,是推理和品味的部分,在这方面 Opus 应该更胜一筹。我们本地打包了 3D 资源,因此测试是引擎和渲染,而不是工具能否获取模型文件。艺术本身是一个人造的资源包,Kenney 的 CC0 平台包,两个代理得到了相同的文件。每个模型必须构建的内容 最后,每个模型必须构建: 在原生 WebGL 中构建一个 3D 引擎和渲染器,不使用 Three.js 或任何库。 一个用于加载提供的 3D 角色和世界模型的加载器。 一个在竞技场中运行和跳跃的角色,具备重力和碰撞。 一个跟随摄像头和键盘控制。 整个过程可通过一条命令在浏览器中运行。 两者大多数是手动完成的(通过工具?通过抓取?):一个 GLB 二进制解析器、矩阵和四元数数学、带有 GLSL 皮肤着色器的 WebGL2 渲染器,以及一步步的 AABB 碰撞以避免角色穿透平台。两者得到了相同的提示、相同的资产和一次没有提示的尝试。我们以高思考模式运行了 Opus 4.8,以高设置运行了 GLM-5.2(GLM-5.2 还有更高的 Max 级别,但我们没有使用)。你可以自己深入研究两次运行:玩 GLM-5.2。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡