你只需要一台10年的Xeon(适用于没有GPU的26B-A4B MTP草图制作器)
发表于2026年6月1日,阅读时间17分钟 上一篇文章介绍了如何对Gemma 4的MTP草图制作器进行量化,并与验证器配对。这一篇是关于在一台不适合运行它的机器上运行结果。 我有一台回收的服务器。值得一提的是,它有128 GB的内存,但它是DDR3...这一内存比当前最好的笔记本电脑内存慢了5-6倍。它还有一颗2016年的单个Intel Xeon E5-2620 v4,速度大约是我笔记本电脑CPU的5倍慢……哦,我提到过,我们没有GPU。并且,不,Xeon没有集成GPU。但是,听我说……如果我们只是把ollama拿出来……正如之前的博客文章所解释的那样,我们不能。而且,如果他们在6个月内添加了我们所需模型的支持,我们能做到就已经很幸运了,如果他们真的能做到。可能他们永远也不会做到。即使如此,ollama根本没有提供足够的旋钮让我们能够很好地运行它,标准的llama-cpp也是如此。但是,为什么这会阻止我们呢?我收到反馈说之前的一些帖子层次过高,我会尽量在这里将事情解释得尽可能清楚。如果你是一个技术工作者,或者是一个构建过计算机并使用过ChatGPT的Linux爱好者,这些内容应该是易于接近的。 所以,为了真正设定场景。硬件信息,根据lscpu: CPU: Intel Xeon E5-2620 v4 @ 2.10 GHz 核心: 8核心,16线程 指令集: AVX2(没有AVX-512,没有AVX-VNNI,没有BF16) 缓存: 20 MiB L3,2 MiB L2 总内存: 128 GB DDR3 GPU: 无 对于LLM推理,内存带宽是限制资源。每生成一个token都需要将数GB的权重从RAM提取到CPU缓存中。当你使用像ChatGPT这样的工具,并目睹文本一个一个地流向你的屏幕时,你正在观看“解码器传递”。在这个阶段,模型一次生成一个输出片段(或“token”)。在这个步骤中,系统的原始处理能力很少是瓶颈。相反,限制是内存带宽。为了计算下一个单词,处理器必须不断提取大量数据。这些数据是“权重”,它们包含了模型所学的知识。它将这些数据从内存移动到计算核心。处理器快速执行所需的矩阵计算,以至于它常常处于空闲状态,等待硬件将下一个权重块在内存总线上物理移动。在传统软件术语中,解码是高度受内存限制的,而不是计算限制的。这就是所谓的“内存墙”,这是目前最大的性能障碍之一,无论你是在Xeon还是H100上。 在没有GPU的DDR3机器上天真地运行llama-cli是非常缓慢的,即使它可以运行,因为它是为通用GPU用例优化的,并且往往会留下很多改进空间。此外,它根本没有当前用于大规模运行这些模型的大多数实际优化。解决办法是利用ik_llama.cpp所提供的每一个优化杠杆。大多数都会稍显晦涩。这里是让它实际运行的魔法咒语。 llama-cli \ --model gemma-4-26B-A4B-it-Q8_0.gguf \ --model-draft gemma-4-26B-A4B-it-assistant-GGUF/ \ wikitext-2-raw_ik-llama-mtp_drafter-conservative/ \ gemma-4-26B-A4B-it-assistant-Q8_0.gguf \ --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune \ -cnv --color --jinja --special \ -sm graph -smgs -sas -mea 256 --split-mode-f32 \ --temp 0.7 -t 8 --parallel 8 \ --cpu-moe --merge-up-gate-experts \ --flash-attn on --mla-use 3 \ --mlock --run-time-repack --no-kv-offload 在像ollama这样的黑箱工具下,你从未看到这条线。在老旧的硬件上,你必须理解每个标志的作用,因为它们中的一半不会生效,机器会在旁边告诉你这一点。 推测解码。 --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune 这将26B验证器与上一篇文章中的小草图制作器配对。每个草图最多三个tokens(--draft-max 3),接受所有概率(--draft-p-min 0.0),--spec-autotune根据工作负载调整链长度。这与我们之前关于内存限制解码器传递的讨论直接相关。当模型使用较长的推理链时,它会逐一生成这些“思考”tokens。即使内部推理对用户是隐藏的,用户所看到的只是一个简短的最终答案,硬件仍然必须为隐藏链中的每个token执行完整的解码传递。实际上,推测解码目前是人工智能行业为绕过“内存墙”而发明的最聪明的软件解决方法之一,而spec autotune是你从中挤出最大速度的方式。推测解码在CPU上的论据比在GPU上更强。与在缓存中传递验证器权重的成本相比,CPU计算是便宜的,因此在一个小草图制作器上花费额外的周期,而活跃层很容易适应L3,便以非常少的边际成本购买tokens。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡