Unsloth GLM-5.2 – 如何在本地运行
⌘ Ctrl k 模型 GLM-5.2 - 如何在本地运行 在本地硬件上运行 Z.ai 的新 GLM-5.2 模型!GLM-5.2 是 Z.ai 的新开源模型,提供了在长时间编码、推理和代理任务中的 SOTA 性能。拥有 744B 参数、40B 活跃参数和 1M 上下文窗口,现在可以使用 Unsloth 动态 GGUF 在本地运行。GLM-5.2 是迄今为止最强的开源模型,在人工分析和许多其他基准测试中表现与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 不相上下。完整模型需要 1.51TB 的磁盘空间,而 Unsloth 动态 2 位 GGUF 将其减少到 239GB (-84% 大小),通过将重要层上调至 8 位或 16 位。动态 1 位进一步降低至 217GB (-86%)。感谢 Z.ai 给予 Unsloth 初始访问权限。 GLM-5.2-GGUF 运行 GLM-5.2 教程 量化结果 ⚙️ 使用指南 2 位动态量化 UD-IQ2_M 使用 239GB 的磁盘空间 - 这可以直接适配 256GB 统一内存的 Mac,并在 1x24GB GPU 和 256GB RAM 配置下正常工作,同时开启 MoE 卸载功能。1 位量化适配 223GB RAM,而 8 位则需要 810GB RAM。 表格:推理硬件要求(单位 = 总内存:RAM + VRAM,或统一内存) 223 GB 245 GB 290-360 GB 372-475 GB 570 GB 810 GB 为了获得最佳性能,请确保您可用的总内存,包括 VRAM 和系统 RAM,超过量化模型文件大小有一定余量。GLM-5.2 具有三种思维模式。无思维和两种思维模式:高 + 最大。在复杂任务中使用最大思维。在 Unsloth Studio 中,您可以轻松通过 UI 切换高 + 最大思维和无思维。对大多数用例使用这些设置:温度 = 1.0 温度 = 1.0 top_p = 0.95 top_p = 1.0 最大上下文窗口:1,048,576。GLM 5.2 默认使用思维模式。并支持 reasoning_effort 为 "high"、"max" 或禁用思维。要禁用思维,请使用 --chat-template-kwargs '{"enable_thinking":false}' 如果您在 Windows Powershell 上,请使用: --chat-template-kwargs "{\"enable_thinking\":false}" 交替使用 "true" 和 "false" 也可以!您现在还可以在 llama.cpp 中使用 --reasoning on 或 --reasoning off!我们还进行了 KLD(KL 散度)测试,以评估我们对 GLM-5.2-GGUF 的量化准确性。一般来说,动态 4 位 UD-Q4_K_XL 和动态 5 位 UD-Q5_K_XL 通常是无损的,而较小的量化也效果良好!在纯前 1% 的准确性中,动态 1 位约 76.2% 的准确性,但小了 86%!动态 2 位则达到约 82% 的准确性,同时减少 84% 的大小。99.9% KLD 通常也很好 - 不过从 4 位起有更大的提升,因此对于巨大分布外的任务,动态 4 位可能是最佳选择。平均 KLD 通常与磁盘空间呈明确单调趋势,并显示即使在 1 位量化下,GLM 5.2 运行良好!您现在可以在 llama.cpp 和 Unsloth Studio 中运行 GLM-5.2。我们将在 239GB UD-IQ2_M 量化中利用最佳的可访问性和准确性结果。GLM-5.2 可以在 Unsloth Studio 中运行,这是一个用于本地 AI 的开源 Web UI。Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。通过 Unsloth Studio,您可以在 MacOS、Windows、Linux 上本地运行模型:搜索、下载、运行 GGUF 和 safetensor 模型 通过 llama.cpp 进行快速 CPU + GPU 推理 安装和启动 Unsloth 要安装,请在终端中运行: MacOS、Linux、WSL: Windows PowerShell: 启动 Unsloth MacOS、Linux、WSL 和 Windows: 然后在浏览器中打开 http://127.0.0.1:8888(或您特定的 URL)。通过 HTTPS 和 Cloudflare 安全启动 Unsloth 新!Unsloth 现在提供了一种安全的方式通过免费的 Cloudflare 隧道通过 HTTPS 启动 Studio。使用以下命令(在 Windows、Mac 和 Linux 中均可使用):搜索和下载 GLM-5.2 Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。首次启动时,您需要创建一个密码以保护您的账户,并在之后再次登录。然后转到 Studio Chat 标签,并在搜索框中搜索 GLM-5.2,下载您所需的模型和量化。确保您有足够的计算能力来运行模型。运行 GLM-5.2 当使用 Unsloth Studio 时,推理参数应自动设置,但您仍然可以手动更改。您还可以编辑上下文长度、聊天模板和其他设置。有关更多信息,您可以查看我们的 Unsloth Studio 推理指南。 2 位 GLM-5.2 运行与工具调用和 SVG 生成的示例。在本指南中,我们将运行 UD-IQ2_M 量化,这将至少需要 245GB RAM。随意更改量化类型。对于这些教程,我们将使用 llama.cpp 进行快速本地推理。 GGUF:GLM-5.2-GGUF 获取最新的 llama.cpp 在 GitHub 上,您可以在此处获取。您还可以遵循以下构建说明。如果您没有 GPU 或只是想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF。如果是 Apple Mac / Metal 设备,请将 -DGGML_CUDA=OFF,然后按常规步骤继续 - Metal 支持默认为开启。您现在可以直接使用 llama.cpp 加载和下载模型,就像 ollama run 一样。首先,选择量化类型。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡