RTX 5080 和 RTX 3090 设置：Qwen 3.6 27B Q8 上 80 Tok/s

一年前，我购买了一块 RTX 5080 用于游戏和 AI 实验。那时我并不知道我会沉迷于本地 LLM 设置。快进到 2026 年，Qwen 3.5、Gemma、Qwen 3.6，我需要超过 16GB 的内存。因此，我购买了一块带 24GB 的翻新 RTX 3090。这样我就可以运行 Qwen 3.6 Q4 quant，最初速度为 ~30 tok/s，然后使用 MTP 提升到 50-60。不算坏。但在我的 5080 几乎不使用的情况下，我仍然感到受限。于是我开始研究如何利用这两张显卡的组合。我已经有准备好的 DDR4 内存条和 SSD 硬盘，我只需要一块能够支持两张显卡的主板。于是 Asus Prime X570-Pro 进入了视野，“Pro” 非常重要，它确保 16x PCIe 可以分成 2x8。鉴于 5080 性能强大，我购买了一条优质的 PCIe 4 riser 将其插入第二个插槽。 BIOS 部分比我预想的更复杂。首先：你不能以 BIOS/MBR 模式启动操作系统，这将禁止使用两张显卡，并且会导致内核参数需要一些不必要的技巧，甚至只为了其中一张。需要设置的参数：进入启动选项卡，将 CSM（兼容性支持模块）设置为禁用进入高级选项卡 -> PCI 子系统设置将超过 4G 解码设置为启用将 ReSize BAR 支持设置为自动或启用。依然在高级选项卡 -> PCIEX16_1 链接模式：Gen 4 PCIEX16_2 链接模式：Gen 4 内核 NVidia 文档很乱，这里是驱动程序安装过程的链接，是的，URL 中有 /tesla，因为为什么不呢： https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/introduction.html 由于这两张 GPU 是不同型号，我不幸无法设置这个美丽的 https://github.com/aikitoria/open-gpu-kernel-modules 我测试过，这个功能是启用的，但很明显，它在不同 GPU 之间很可能会失败，尤其是不同代之间。尽管如此，对于那些拥有两张相同类型显卡的幸运读者，一旦补丁驱动程序构建/安装完成，请不要忘记：卸载 nvidia-dkms-open 屏蔽新 nova 驱动程序只有在这之后，新补丁驱动程序才会在启动时加载。你应该看到以下内容： $ nvidia-smi topo -p2p r GPU0 GPU1 GPU0 X OK GPU1 OK X 图例： X = 自检 OK = 状态正常 CNS = 芯片组不支持 GNS = GPU 不支持 TNS = 拓扑不支持 NS = 不支持 DR = 由 regkey 禁用 U = 未知如果像我一样拥有不同的 NVidia 显卡，请使用 nvidia-open 驱动程序。重新启动并加载 nvidia 驱动程序后，请检查显卡是否被识别： $ nvidia-smi 2026年6月13日星期六 09:29:23 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 610.43.02 KMD 版本: 610.43.02 CUDA UMD 版本: 13.3 | +-----------------------------------------+------------------------+----------------------+ | GPU 名称永久使用 | 总线 ID 显示 A | 易失性未经纠正 ECC | | 风扇温度性能功耗: 使用/容量 | 内存使用 | GPU 利用率计算 M. | | | | MIG 模式 | | ========================================= + ======================== + ====================== | | 0 NVIDIA GeForce RTX 3090 已开启 | 00000000:07:00.0 已开启 | N/A | | 0% 34°C P8 17W / 350W | 23646MiB / 24576MiB | 0% 默认 | | | | N/A | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA GeForce RTX 5080 已开启 | 00000000:08:00.0 已关闭 | N/A | | 0% 31°C P8 15W / 360W | 15861MiB / 16303MiB | 0% 默认 | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | 进程: | | GPU GI CI PID 类型进程名称 GPU 内存 | | ID ID 使用 | | ========================================================================================= | +-----------------------------------------------------------------------------------------+ llama.cpp 这是我用于支持两代显卡的构建标志： # cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DGGML_NATIVE=ON -DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DCMAKE_CUDA_ARCHITECTURES="86;120" -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc -DGGML_CUDA_NCCL=OFF 相关标志是 CMAKE_CUDA_ARCHITECTURES="86;120"，它启用了 Ampere 和 Blackwell 架构。请注意 -DGGML_CUDA_NCCL=OFF 标志，我发现 nccl 实际上是适得其反，即使 llama-server 日志显示相反。现在是启动选项： llama-server -m ./models/Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf \ -c 229376 \ -np 1 -fa on -ngl 99 -ub 512 -t 6 --no-mmap \ --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 \ -ctk q8_0 -ctv q8_0 --kv-unified \ --chat-template-kwargs { "preserve_thinking" : true } \ --spec-type ngram-mod,draft-mtp --spec-draft-n-max 3 \ -sm tensor -ts 2,3 \ --port 8001 --host 0.0.0.0 "调料": Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf 此模型的 q8 量化适合整体 39GB，拥有 230k 的上下文和 KV-cache。