RTX 5080 和 RTX 3090 设置:Qwen 3.6 27B Q8 上 80 Tok/s
一年前,我购买了一块 RTX 5080 用于游戏和 AI 实验。那时我并不知道我会沉迷于本地 LLM 设置。快进到 2026 年,Qwen 3.5、Gemma、Qwen 3.6,我需要超过 16GB 的内存。因此,我购买了一块带 24GB 的翻新 RTX 3090。这样我就可以运行 Qwen 3.6 Q4 quant,最初速度为 ~30 tok/s,然后使用 MTP 提升到 50-60。不算坏。但在我的 5080 几乎不使用的情况下,我仍然感到受限。于是我开始研究如何利用这两张显卡的组合。 我已经有准备好的 DDR4 内存条和 SSD 硬盘,我只需要一块能够支持两张显卡的主板。于是 Asus Prime X570-Pro 进入了视野,“Pro” 非常重要,它确保 16x PCIe 可以分成 2x8。鉴于 5080 性能强大,我购买了一条优质的 PCIe 4 riser 将其插入第二个插槽。 BIOS 部分比我预想的更复杂。首先:你不能以 BIOS/MBR 模式启动操作系统,这将禁止使用两张显卡,并且会导致内核参数需要一些不必要的技巧,甚至只为了其中一张。需要设置的参数: 进入启动选项卡,将 CSM(兼容性支持模块)设置为禁用 进入高级选项卡 -> PCI 子系统设置 将超过 4G 解码设置为启用 将 ReSize BAR 支持设置为自动或启用。依然在高级选项卡 -> PCIEX16_1 链接模式:Gen 4 PCIEX16_2 链接模式:Gen 4 内核 NVidia 文档很乱,这里是驱动程序安装过程的链接,是的,URL 中有 /tesla,因为为什么不呢: https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/introduction.html 由于这两张 GPU 是不同型号,我不幸无法设置这个美丽的 https://github.com/aikitoria/open-gpu-kernel-modules 我测试过,这个功能是启用的,但很明显,它在不同 GPU 之间很可能会失败,尤其是不同代之间。尽管如此,对于那些拥有两张相同类型显卡的幸运读者,一旦补丁驱动程序构建/安装完成,请不要忘记: 卸载 nvidia-dkms-open 屏蔽新 nova 驱动程序 只有在这之后,新补丁驱动程序才会在启动时加载。你应该看到以下内容: $ nvidia-smi topo -p2p r GPU0 GPU1 GPU0 X OK GPU1 OK X 图例: X = 自检 OK = 状态正常 CNS = 芯片组不支持 GNS = GPU 不支持 TNS = 拓扑不支持 NS = 不支持 DR = 由 regkey 禁用 U = 未知 如果像我一样拥有不同的 NVidia 显卡,请使用 nvidia-open 驱动程序。重新启动并加载 nvidia 驱动程序后,请检查显卡是否被识别: $ nvidia-smi 2026年6月13日星期六 09:29:23 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 610.43.02 KMD 版本: 610.43.02 CUDA UMD 版本: 13.3 | +-----------------------------------------+------------------------+----------------------+ | GPU 名称 永久使用 | 总线 ID 显示 A | 易失性未经纠正 ECC | | 风扇 温度 性能 功耗: 使用/容量 | 内存使用 | GPU 利用率 计算 M. | | | | MIG 模式 | | ========================================= + ======================== + ====================== | | 0 NVIDIA GeForce RTX 3090 已开启 | 00000000:07:00.0 已开启 | N/A | | 0% 34°C P8 17W / 350W | 23646MiB / 24576MiB | 0% 默认 | | | | N/A | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA GeForce RTX 5080 已开启 | 00000000:08:00.0 已关闭 | N/A | | 0% 31°C P8 15W / 360W | 15861MiB / 16303MiB | 0% 默认 | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | 进程: | | GPU GI CI PID 类型 进程名称 GPU 内存 | | ID ID 使用 | | ========================================================================================= | +-----------------------------------------------------------------------------------------+ llama.cpp 这是我用于支持两代显卡的构建标志: # cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DGGML_NATIVE=ON -DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DCMAKE_CUDA_ARCHITECTURES="86;120" -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc -DGGML_CUDA_NCCL=OFF 相关标志是 CMAKE_CUDA_ARCHITECTURES="86;120",它启用了 Ampere 和 Blackwell 架构。请注意 -DGGML_CUDA_NCCL=OFF 标志,我发现 nccl 实际上是适得其反,即使 llama-server 日志显示相反。 现在是启动选项: llama-server -m ./models/Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf \ -c 229376 \ -np 1 -fa on -ngl 99 -ub 512 -t 6 --no-mmap \ --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 \ -ctk q8_0 -ctv q8_0 --kv-unified \ --chat-template-kwargs { "preserve_thinking" : true } \ --spec-type ngram-mod,draft-mtp --spec-draft-n-max 3 \ -sm tensor -ts 2,3 \ --port 8001 --host 0.0.0.0 "调料": Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf 此模型的 q8 量化适合整体 39GB,拥有 230k 的上下文和 KV-cache。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡