你只需要一台10年的Xeon（适用于没有GPU的26B-A4B MTP草图制作器）

发表于2026年6月1日，阅读时间17分钟上一篇文章介绍了如何对Gemma 4的MTP草图制作器进行量化，并与验证器配对。这一篇是关于在一台不适合运行它的机器上运行结果。我有一台回收的服务器。值得一提的是，它有128 GB的内存，但它是DDR3...这一内存比当前最好的笔记本电脑内存慢了5-6倍。它还有一颗2016年的单个Intel Xeon E5-2620 v4，速度大约是我笔记本电脑CPU的5倍慢……哦，我提到过，我们没有GPU。并且，不，Xeon没有集成GPU。但是，听我说……如果我们只是把ollama拿出来……正如之前的博客文章所解释的那样，我们不能。而且，如果他们在6个月内添加了我们所需模型的支持，我们能做到就已经很幸运了，如果他们真的能做到。可能他们永远也不会做到。即使如此，ollama根本没有提供足够的旋钮让我们能够很好地运行它，标准的llama-cpp也是如此。但是，为什么这会阻止我们呢？我收到反馈说之前的一些帖子层次过高，我会尽量在这里将事情解释得尽可能清楚。如果你是一个技术工作者，或者是一个构建过计算机并使用过ChatGPT的Linux爱好者，这些内容应该是易于接近的。所以，为了真正设定场景。硬件信息，根据lscpu： CPU: Intel Xeon E5-2620 v4 @ 2.10 GHz 核心: 8核心，16线程指令集: AVX2（没有AVX-512，没有AVX-VNNI，没有BF16）缓存: 20 MiB L3，2 MiB L2 总内存: 128 GB DDR3 GPU: 无对于LLM推理，内存带宽是限制资源。每生成一个token都需要将数GB的权重从RAM提取到CPU缓存中。当你使用像ChatGPT这样的工具，并目睹文本一个一个地流向你的屏幕时，你正在观看“解码器传递”。在这个阶段，模型一次生成一个输出片段（或“token”）。在这个步骤中，系统的原始处理能力很少是瓶颈。相反，限制是内存带宽。为了计算下一个单词，处理器必须不断提取大量数据。这些数据是“权重”，它们包含了模型所学的知识。它将这些数据从内存移动到计算核心。处理器快速执行所需的矩阵计算，以至于它常常处于空闲状态，等待硬件将下一个权重块在内存总线上物理移动。在传统软件术语中，解码是高度受内存限制的，而不是计算限制的。这就是所谓的“内存墙”，这是目前最大的性能障碍之一，无论你是在Xeon还是H100上。在没有GPU的DDR3机器上天真地运行llama-cli是非常缓慢的，即使它可以运行，因为它是为通用GPU用例优化的，并且往往会留下很多改进空间。此外，它根本没有当前用于大规模运行这些模型的大多数实际优化。解决办法是利用ik_llama.cpp所提供的每一个优化杠杆。大多数都会稍显晦涩。这里是让它实际运行的魔法咒语。 llama-cli \ --model gemma-4-26B-A4B-it-Q8_0.gguf \ --model-draft gemma-4-26B-A4B-it-assistant-GGUF/ \ wikitext-2-raw_ik-llama-mtp_drafter-conservative/ \ gemma-4-26B-A4B-it-assistant-Q8_0.gguf \ --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune \ -cnv --color --jinja --special \ -sm graph -smgs -sas -mea 256 --split-mode-f32 \ --temp 0.7 -t 8 --parallel 8 \ --cpu-moe --merge-up-gate-experts \ --flash-attn on --mla-use 3 \ --mlock --run-time-repack --no-kv-offload 在像ollama这样的黑箱工具下，你从未看到这条线。在老旧的硬件上，你必须理解每个标志的作用，因为它们中的一半不会生效，机器会在旁边告诉你这一点。推测解码。 --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune 这将26B验证器与上一篇文章中的小草图制作器配对。每个草图最多三个tokens（--draft-max 3），接受所有概率（--draft-p-min 0.0），--spec-autotune根据工作负载调整链长度。这与我们之前关于内存限制解码器传递的讨论直接相关。当模型使用较长的推理链时，它会逐一生成这些“思考”tokens。即使内部推理对用户是隐藏的，用户所看到的只是一个简短的最终答案，硬件仍然必须为隐藏链中的每个token执行完整的解码传递。实际上，推测解码目前是人工智能行业为绕过“内存墙”而发明的最聪明的软件解决方法之一，而spec autotune是你从中挤出最大速度的方式。推测解码在CPU上的论据比在GPU上更强。与在缓存中传递验证器权重的成本相比，CPU计算是便宜的，因此在一个小草图制作器上花费额外的周期，而活跃层很容易适应L3，便以非常少的边际成本购买tokens。