返回

文章详情

Qwen 3.6 27B 是本地开发的最佳选择

Hacker News2026年6月29日 17:05

我曾对本地模型感到失望。但后来我检查了 Qwen 3.6,我震惊了。对我来说,它是第一个真正能作为一般智能有意义的本地模型。它有两种变体,一种是混合专家模型 Qwen 3.6 35B A3B,另一种是密集的 Qwen 3.6 27B - 较慢,但更强大。推荐使用这个!让我分享我的印象,并展示你也可以运行它。它真的很热。当我的膝盖开始发烫时,我拿起一台手机连接的热成像摄像机拍了一张照片。Qwen 3.6 理所当然地在 Hacker News 上受到了广泛关注。关于 Qwen 3.6 27B 最常见的说法是它超出了它的重量 - 详见 Will it Mythos?我认为这是一种实至名归的观点。它会让你的计算机变热,但这是值得的! 测试水域 Simon Willison 使用“骑自行车的企鹅”作为烟雾测试(见 Qwen 3.6 35B A3B 和 Qwen 3.6 27B)。我通常会进行受限写作。一年前,这种东西是当时的尖端技术,需要一个独特且极其昂贵的 GPT-4.5,见翻译 Quantum Flytrap 。我还让它写了一首关于 Zouk 舞蹈和量子物理的 8 行诗,见转录。其思维过程都很清晰,无论是在量子术语的推敲上,还是在韵律上。然后我在 OpenCode 中要求创建一个使用 pnpm 的六边形扫雷游戏。它成功了:在第一次尝试中,从一个提示开始,成功生成了一个适当的 Node 包。混合专家 Qwen 3.6 35B A3B 更快……但它忽视了我创建包的指令,结果只生成了一个 index.html。真实工作 当然,创作关于量子力学的文学作品,或者又一个扫雷游戏的克隆,通常不是一份日常工作。但是 Qwen 3.6 27B 在常规任务中表现也不错。在 AI Tinkerers Warsaw 的朋友 Maciej Cielecki 的提示下,它运行了几分钟,并创建了这个:按照目前前沿模型的标准,它并不显著。但它已经是一项实用的工作。它运行成功,反应灵敏,默认设置不错 - 所有这些都来自一个简短的提示。 在 llama.cpp 上本地运行 Qwen 3.6 本地模型的运行比以往任何时候都更加简单。轻松输入几个 CLI 命令即可开始。我推荐使用 llama.cpp - 一个直接的开源工具,允许在各种设备上运行模型。你不需要 Ollama,坦率地说,我不建议出于道德原因使用它。 首先,我们去 Hugging Face 获取适当的量化,即一个减小大小的模型 - 受欢迎的选择有 unsloth 或 bartowski 等。默认模型通常采用 BF16 精度。常见的 8 位量化将空间节省一半,几乎对质量没有损失。往前走,模型变得更小(并且可能更快),但代价是质量,见这个关于 27B 的比较和另一个关于 35B A3B 的比较。我们获取 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0,这是一个支持多令牌预测 (MTP) 的 8 位量化模型。 llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --jinja --port 8080 它的作用: -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 从 Hugging Face 获取,下次运行将重用该引用 -m ~/models/Qwen3.6-27B-Q8_0.gguf 如果你已经拥有它,可以替换为此 draft-mtp 我们使用一个快速模型来预测后续令牌,加快速度 -ngl 999 将所有层放入 GPU -fa on 闪存注意开启 -c 65536 上下文大小设置为 64k 令牌(这个我们可以微调,Qwen 3.6 27B 原生上下文为 256k) --jinja 以支持工具调用 --port 8080 尽量固定端口,因为它将被其他配置使用 如果你打开 http://127.0.0.1:8080 ,你可以直接与它聊天。同样的服务器也可以用于 vibe 编码。代理的选择取决于个人目标和主观喜好 - 对于通用的 OpenCode,极简的 Pi,以及自我改进的 Hermes。 对于 OpenCode,简单地添加到 ~/.config/opencode/opencode.jsonc : { "$schema" : "https://opencode.ai/config.json" , "provider" : { "llama" : { "name" : "llama.cpp (local)" , "npm" : "@ai-sdk/openai-compatible" , "options" : { "baseURL" : "http://127.0.0.1:8080/v1" , "apiKey" : "local" }, "models" : { "qwen3.6-27b" : { "name" : "Qwen3.6-27B Q8 +MTP" } } } }, "model" : "llama/qwen3.6-27b" } 如果你只是想聊天,并且是终端的狂热粉丝,那么直接使用 llama-cli 而不是 llama-server : llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 --jinja 测量性能 够快吗?我在我的 Macbook Max M5 128 GB 上运行了几次测试(源在这里),并对比了带和不带多令牌预测的运行,以及与 35B A3B 模型和一个量化的 DeepSeek V4 Flash 版本 DwarfStar4 的比较。 tokens / s RAM Qwen3.6-35B-A3B · 8-bit MLX 85 tok/s 85 37 GB RAM 37 GB llama.cpp 93 tok/s 93 44 GB RAM 44 GB llama.cpp + MTP 105 tok/s 105 45 GB RAM 45 GB Qwen3.6-27B · 8-bit MLX 17 tok/s 17 28 GB RAM 28 GB llama.cpp 18 tok/s 18 41 GB RAM 41 GB llama.cpp + MTP 32 tok/s 32 42 GB RAM 42 GB DeepSeek-V4-Flash · Q2–Q4 llama.cpp 33 tok/s 33 103 GB RAM 103 GB 30 tokens

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡