Qwen 3.6 27B 是本地开发的最佳选择

我曾对本地模型感到失望。但后来我检查了 Qwen 3.6，我震惊了。对我来说，它是第一个真正能作为一般智能有意义的本地模型。它有两种变体，一种是混合专家模型 Qwen 3.6 35B A3B，另一种是密集的 Qwen 3.6 27B - 较慢，但更强大。推荐使用这个！让我分享我的印象，并展示你也可以运行它。它真的很热。当我的膝盖开始发烫时，我拿起一台手机连接的热成像摄像机拍了一张照片。Qwen 3.6 理所当然地在 Hacker News 上受到了广泛关注。关于 Qwen 3.6 27B 最常见的说法是它超出了它的重量 - 详见 Will it Mythos？我认为这是一种实至名归的观点。它会让你的计算机变热，但这是值得的！测试水域 Simon Willison 使用“骑自行车的企鹅”作为烟雾测试（见 Qwen 3.6 35B A3B 和 Qwen 3.6 27B）。我通常会进行受限写作。一年前，这种东西是当时的尖端技术，需要一个独特且极其昂贵的 GPT-4.5，见翻译 Quantum Flytrap 。我还让它写了一首关于 Zouk 舞蹈和量子物理的 8 行诗，见转录。其思维过程都很清晰，无论是在量子术语的推敲上，还是在韵律上。然后我在 OpenCode 中要求创建一个使用 pnpm 的六边形扫雷游戏。它成功了：在第一次尝试中，从一个提示开始，成功生成了一个适当的 Node 包。混合专家 Qwen 3.6 35B A3B 更快……但它忽视了我创建包的指令，结果只生成了一个 index.html。真实工作当然，创作关于量子力学的文学作品，或者又一个扫雷游戏的克隆，通常不是一份日常工作。但是 Qwen 3.6 27B 在常规任务中表现也不错。在 AI Tinkerers Warsaw 的朋友 Maciej Cielecki 的提示下，它运行了几分钟，并创建了这个：按照目前前沿模型的标准，它并不显著。但它已经是一项实用的工作。它运行成功，反应灵敏，默认设置不错 - 所有这些都来自一个简短的提示。在 llama.cpp 上本地运行 Qwen 3.6 本地模型的运行比以往任何时候都更加简单。轻松输入几个 CLI 命令即可开始。我推荐使用 llama.cpp - 一个直接的开源工具，允许在各种设备上运行模型。你不需要 Ollama，坦率地说，我不建议出于道德原因使用它。首先，我们去 Hugging Face 获取适当的量化，即一个减小大小的模型 - 受欢迎的选择有 unsloth 或 bartowski 等。默认模型通常采用 BF16 精度。常见的 8 位量化将空间节省一半，几乎对质量没有损失。往前走，模型变得更小（并且可能更快），但代价是质量，见这个关于 27B 的比较和另一个关于 35B A3B 的比较。我们获取 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0，这是一个支持多令牌预测 (MTP) 的 8 位量化模型。 llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --jinja --port 8080 它的作用： -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 从 Hugging Face 获取，下次运行将重用该引用 -m ~/models/Qwen3.6-27B-Q8_0.gguf 如果你已经拥有它，可以替换为此 draft-mtp 我们使用一个快速模型来预测后续令牌，加快速度 -ngl 999 将所有层放入 GPU -fa on 闪存注意开启 -c 65536 上下文大小设置为 64k 令牌（这个我们可以微调，Qwen 3.6 27B 原生上下文为 256k） --jinja 以支持工具调用 --port 8080 尽量固定端口，因为它将被其他配置使用如果你打开 http://127.0.0.1:8080 ，你可以直接与它聊天。同样的服务器也可以用于 vibe 编码。代理的选择取决于个人目标和主观喜好 - 对于通用的 OpenCode，极简的 Pi，以及自我改进的 Hermes。对于 OpenCode，简单地添加到 ~/.config/opencode/opencode.jsonc ： { "$schema" : "https://opencode.ai/config.json" , "provider" : { "llama" : { "name" : "llama.cpp (local)" , "npm" : "@ai-sdk/openai-compatible" , "options" : { "baseURL" : "http://127.0.0.1:8080/v1" , "apiKey" : "local" }, "models" : { "qwen3.6-27b" : { "name" : "Qwen3.6-27B Q8 +MTP" } } } }, "model" : "llama/qwen3.6-27b" } 如果你只是想聊天，并且是终端的狂热粉丝，那么直接使用 llama-cli 而不是 llama-server ： llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 --jinja 测量性能够快吗？我在我的 Macbook Max M5 128 GB 上运行了几次测试（源在这里），并对比了带和不带多令牌预测的运行，以及与 35B A3B 模型和一个量化的 DeepSeek V4 Flash 版本 DwarfStar4 的比较。 tokens / s RAM Qwen3.6-35B-A3B · 8-bit MLX 85 tok/s 85 37 GB RAM 37 GB llama.cpp 93 tok/s 93 44 GB RAM 44 GB llama.cpp + MTP 105 tok/s 105 45 GB RAM 45 GB Qwen3.6-27B · 8-bit MLX 17 tok/s 17 28 GB RAM 28 GB llama.cpp 18 tok/s 18 41 GB RAM 41 GB llama.cpp + MTP 32 tok/s 32 42 GB RAM 42 GB DeepSeek-V4-Flash · Q2–Q4 llama.cpp 33 tok/s 33 103 GB RAM 103 GB 30 tokens