Unsloth GLM-5.2 – 如何在本地运行

⌘ Ctrl k 模型 GLM-5.2 - 如何在本地运行在本地硬件上运行 Z.ai 的新 GLM-5.2 模型！GLM-5.2 是 Z.ai 的新开源模型，提供了在长时间编码、推理和代理任务中的 SOTA 性能。拥有 744B 参数、40B 活跃参数和 1M 上下文窗口，现在可以使用 Unsloth 动态 GGUF 在本地运行。GLM-5.2 是迄今为止最强的开源模型，在人工分析和许多其他基准测试中表现与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 不相上下。完整模型需要 1.51TB 的磁盘空间，而 Unsloth 动态 2 位 GGUF 将其减少到 239GB (-84% 大小)，通过将重要层上调至 8 位或 16 位。动态 1 位进一步降低至 217GB (-86%)。感谢 Z.ai 给予 Unsloth 初始访问权限。 GLM-5.2-GGUF 运行 GLM-5.2 教程量化结果 ⚙️ 使用指南 2 位动态量化 UD-IQ2_M 使用 239GB 的磁盘空间 - 这可以直接适配 256GB 统一内存的 Mac，并在 1x24GB GPU 和 256GB RAM 配置下正常工作，同时开启 MoE 卸载功能。1 位量化适配 223GB RAM，而 8 位则需要 810GB RAM。表格：推理硬件要求（单位 = 总内存：RAM + VRAM，或统一内存） 223 GB 245 GB 290-360 GB 372-475 GB 570 GB 810 GB 为了获得最佳性能，请确保您可用的总内存，包括 VRAM 和系统 RAM，超过量化模型文件大小有一定余量。GLM-5.2 具有三种思维模式。无思维和两种思维模式：高 + 最大。在复杂任务中使用最大思维。在 Unsloth Studio 中，您可以轻松通过 UI 切换高 + 最大思维和无思维。对大多数用例使用这些设置：温度 = 1.0 温度 = 1.0 top_p = 0.95 top_p = 1.0 最大上下文窗口：1,048,576。GLM 5.2 默认使用思维模式。并支持 reasoning_effort 为 "high"、"max" 或禁用思维。要禁用思维，请使用 --chat-template-kwargs '{"enable_thinking":false}' 如果您在 Windows Powershell 上，请使用： --chat-template-kwargs "{\"enable_thinking\":false}" 交替使用 "true" 和 "false" 也可以！您现在还可以在 llama.cpp 中使用 --reasoning on 或 --reasoning off！我们还进行了 KLD（KL 散度）测试，以评估我们对 GLM-5.2-GGUF 的量化准确性。一般来说，动态 4 位 UD-Q4_K_XL 和动态 5 位 UD-Q5_K_XL 通常是无损的，而较小的量化也效果良好！在纯前 1% 的准确性中，动态 1 位约 76.2% 的准确性，但小了 86%！动态 2 位则达到约 82% 的准确性，同时减少 84% 的大小。99.9% KLD 通常也很好 - 不过从 4 位起有更大的提升，因此对于巨大分布外的任务，动态 4 位可能是最佳选择。平均 KLD 通常与磁盘空间呈明确单调趋势，并显示即使在 1 位量化下，GLM 5.2 运行良好！您现在可以在 llama.cpp 和 Unsloth Studio 中运行 GLM-5.2。我们将在 239GB UD-IQ2_M 量化中利用最佳的可访问性和准确性结果。GLM-5.2 可以在 Unsloth Studio 中运行，这是一个用于本地 AI 的开源 Web UI。Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。通过 Unsloth Studio，您可以在 MacOS、Windows、Linux 上本地运行模型：搜索、下载、运行 GGUF 和 safetensor 模型通过 llama.cpp 进行快速 CPU + GPU 推理安装和启动 Unsloth 要安装，请在终端中运行： MacOS、Linux、WSL： Windows PowerShell：启动 Unsloth MacOS、Linux、WSL 和 Windows：然后在浏览器中打开 http://127.0.0.1:8888（或您特定的 URL）。通过 HTTPS 和 Cloudflare 安全启动 Unsloth 新！Unsloth 现在提供了一种安全的方式通过免费的 Cloudflare 隧道通过 HTTPS 启动 Studio。使用以下命令（在 Windows、Mac 和 Linux 中均可使用）：搜索和下载 GLM-5.2 Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。首次启动时，您需要创建一个密码以保护您的账户，并在之后再次登录。然后转到 Studio Chat 标签，并在搜索框中搜索 GLM-5.2，下载您所需的模型和量化。确保您有足够的计算能力来运行模型。运行 GLM-5.2 当使用 Unsloth Studio 时，推理参数应自动设置，但您仍然可以手动更改。您还可以编辑上下文长度、聊天模板和其他设置。有关更多信息，您可以查看我们的 Unsloth Studio 推理指南。 2 位 GLM-5.2 运行与工具调用和 SVG 生成的示例。在本指南中，我们将运行 UD-IQ2_M 量化，这将至少需要 245GB RAM。随意更改量化类型。对于这些教程，我们将使用 llama.cpp 进行快速本地推理。 GGUF：GLM-5.2-GGUF 获取最新的 llama.cpp 在 GitHub 上，您可以在此处获取。您还可以遵循以下构建说明。如果您没有 GPU 或只是想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF。如果是 Apple Mac / Metal 设备，请将 -DGGML_CUDA=OFF，然后按常规步骤继续 - Metal 支持默认为开启。您现在可以直接使用 llama.cpp 加载和下载模型，就像 ollama run 一样。首先，选择量化类型。