Jamesob的本地运行SOTA LLM指南
Jamesob的本地运行SOTA LLM指南 注意:本README中除了表格之外的内容均非AI撰写。 有2000美元的预算而想要一些本地的尖端机器智能?或者40000美元呢?如果Dario和Altman让你心烦(他们应该会),继续阅读以了解如何在本地运行这种新型计算。 在这个仓库中,你会找到我用来在本地运行SOTA的硬件,我购买这些硬件的原因及一些鲜为人知的配置秘密,以及我如何在本地运行语音转文本(STT),用于运行我认为不错的模型的现成配置,容器运行在Docker中。 内容 节 TL;DR 你愿意花多少钱? 2000美元能让你得到Qwen和良好的STT(相当不错!);40000美元则能让你几乎配备Opus基础系统。 上代EPYC + eBay DDR4,价格为5600美元 GPU 4× RTX PRO 6000,384GB VRAM,资金去向 - c-payne开关 - 子BOM - 独立PCIe开关,以便GPU实现对等通信 - GPU外壳 - 一天木工 - 使开关正常工作的调整 - BIOS分裂,链路速度,ASPM - 内核/GRUB参数:iommu=off或NCCL挂起 - ACS禁用 - 保持P2P流量在开关架构内 - 在110V电路上运行46000美元的硅 结果 Gen4线路速率:27.5/50.4 GB/s,亚微秒延迟。 现成可运行的配置: - GLM-5.2-594B : vLLM docker-compose, DCP4+MTP5, ~80 t/s @ 240k ctx - Ready-to-run语音转文本配置与whisper-large-v3工具/ - measure-gpu-speed.sh : P2P带宽/延迟基准 资源 - rtx6kpro仓库,c-payne 我的设置 我运气好/傻到在它们还便宜时买了4个RTX Pro 6000。 由于内存现在非常昂贵,我决定构建一个上代DDR4系统来托管这些卡,而这些部件都是从eBay上购买的。 这让我在保持基础系统成本合理的同时,仍然获得了大量的VRAM。 我做的另一个相对不寻常的事情是使用PCIe4开关(来自c-payne.com)。 这允许GPU在张量并行中的allreduce步骤期间“直接”以线速相互通信,而不必通过PCI根复合体传送所有数据。 因此,我在VRAM上花钱(这是有意义的),而不是在PCIe5/DDR5基础系统上,这在2026年7月是非常昂贵的。 我的特定BOM如下所示。 你愿意花多少钱? 大约2000美元 一个很好的选择是2个RTX 3090,总共48GB VRAM。然后你可以运行Qwen3.6-27B,这是一个很棒的模型。 你还可以使用whisper-large-v3运行SOTA语音转文本(STT),我觉得这个模型非常有用。 这是模型 - 你可以通过我的跨平台STT工具进行访问。 我发现本地STT意外地有用 - 并且我对其使用感到舒适,与托管的替代品不同。 你可以在./runners/stt中找到一个现成的配置,只需假设Nvidia GPU上有大约11GB的VRAM。 大约40000美元 在这个价格水平上,你可以获得更高阶的模型智能。 与Claude Opus极为接近。 你会购买4个RTX 6000 Pro,获得384GB的VRAM。 当前最佳模型为4个RTX6kPRO的配置 GLM-5.2-Int8Mix-NVFP4-REAP-594B 日期 最佳模型 我的配置 2026-07 GLM-5.2-Int8Mix-NVFP4-REAP-594B Runner config 其他方案 注意:这些是我的推荐,但还有其他完全有效的花钱方式。 例如,也许可以采取某种方式,而不是购买4个RTX6kPRO,你可以将大部分资金用于构建一个连接的4个DGX Spark集群,总共512GB VRAM,并将其用作慢速的大脑,通过Qwen3.7-27b快速完成机械任务。 硬件 以下是我为4个RTX 6000 Pro机器最终购买的硬件: 基础系统 一个朴素的,上代EPYC系统,几乎全部从eBay上分开购买的部件。 组件 规格 价格 主板 ASRock Rack ROMED8-2T (SP3, 7× PCIe 4.0 x16, 双10GbE) 715美元 CPU AMD EPYC Milan 7313P (16核 3.0GHz) 504美元 内存 8× 16GB Crucial CT16G4RFD4213 DDR4 ECC RDIMM (总共128GB) (eBay) 642美元 CPU散热器 Dynatron T17 SP3塔式,280W TDP 40美元 机箱 AAAWave Sluice V2开放框架 100美元 电源 2× Super Flower 1700W 750美元 PCIe交换机 c-payne Microchip Switchtec PM40100 Gen4 (见子BOM) ~1,330美元 启动 NVMe 4TB M.2 291美元 存储 NVMe (2x) 8TB M.2 (模型权重) 1,200美元 风扇 3× 120mm PWM 15美元 总计 5,587美元 GPU 组件 规格 价格 GPU 4× NVIDIA RTX PRO 6000 Blackwell工作站 (每个96GB,总共384GB VRAM) ~46,000美元 c-payne PCIe Gen4开关 子BOM (c-payne.com) 部件 数量 单位 (€) 备注 PCIe gen4开关 5× x16 — Microchip Switchtec PM40100 1 1,050 2× SlimSAS 8i上游,5× x16四宽间距下游,aux x4 SlimSAS,3× 8针EPS电源 SlimSAS PCIe gen4主机适配器 x16 — REDRIVER AIC (DS160PR810) 1 140 插入ROMED8-2T x16插槽,向上供电给开关 SlimSAS SFF-8654 8i电缆 — PCIe gen4 2 ~30 每根传输x8;一对为x16上游 总计 €1,220 (1,330美元) GPU外壳 我需要为PCI交换机和GPU定制制造了一个木外壳,花了一天时间。 我发现PCI开关的内置
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡