在AMD MI300X上启动DeepSeek-V4-Flash

在Doubleword，我们正在构建一个为高容量设计的推理云。为此，我们必须应对不断扩大的计算短缺。AMD的MI300X于2023年12月在AMD的“推进AI”活动上发布，作为AMD对NVIDIA H100的回应，与同一代的H200一起推出。在高端AI加速器的世界中，它是一只奇特的鸭子。尽管H100的价格在上涨（在一年租赁中上涨了40%，而每个主要NVIDIA产品的按需容量都已经售罄），MI300X可能仍然被低估。每张卡有192GB的HBM3，相较于H100的80GB，FP8计算是相当的，价格大约是其一半。然而，今天你可以按需租用一个（例如，从Hotaisle），比相应的NVIDIA容量便宜得多。原因就在于软件。关于在AMD上运行AI工作负载的问题已在其他地方被详细阐述，并且有迹象表明AMD的新芯片正在缩小这种差距。SemiAnalysis的InferenceX仪表板跟踪最新的AMD部件（MI350X、MI355X）与当前NVIDIA世代的对比。然而，这种对软件的新关注并没有扩展到旧部件。截至2026年5月初，在MI300X上运行DeepSeek-V4-Flash的vLLM就是无法工作。从理论上讲，MI300X是一个优秀的加速器。我们希望它能工作。本文是我们在尝试让其工作时所发现的所有尖锐边缘和曲折路径的工作日志。FP8方言 § MI300X是开启向低位宽迈进的加速器一代的一部分。LLM权重，以及在较小程度上激活和KV缓存，对数值不精确的敏感性低于典型的HPC工作负载，因此NVIDIA芯片的Hopper一代和第一代Instinct芯片第一次添加了对小于16位精度的硬件支持。结果是应用于工作负载的浮点运算数增倍，同时相应地转移的数据量减少了一半。问题是，关于如何构建FP8数据类型存在争议。Graphcore和AMD在2022年的预印本中提出了一种标准，并得到了高通的支持。Arm、Intel和NVIDIA通过开放计算项目提出了另一种标准。在重新审视导致IEEE 754的一些分叉路口时，与William Kahan的这次采访是如何制定算术标准的好读物，包括哪些论点获胜以及哪些被遗忘了，不同的提供者构建了不同且不兼容的行为。考虑到每一方的支持者名单，AMD/Graphcore标准未能实现并不让人感到意外。AMD更新的MI325、MI350和MI355X芯片都转向了OCP标准的FP8。但是MI300X仍然只在fnuz方言中工作。fnuz表示“有限、nans、无符号零”，即没有-0，也没有inf。这些看似合理的东西在小浮点范围的AI工作负载中被削减，因为每一个比特都很重要，但这个方言从未真正起飞，后来的AMD代又回归到更普通的FP8。因此，最初在AMD上为DeepSeek引入的vLLM工作实际上并不适用于MI300X。vLLM的很多FP8路径意识到e4m3与e5m2的区别，但对fnuz与OCP却没有。两者共享其比特布局，但在指数偏差的差异为一，因此，作为错误方言读取的相同字节会返回一个正好是两倍的值。MI300X是唯一一个在实践中这个区分是重要的主要加速器。在整个过程中，我们会记录在我们为这篇文章推出的公共vLLM存储库中的演示PR的相关提交。236de4e64使DeepSeek v4压缩器和融合压缩/量化/缓存写入使用平台FP8数据类型，以便缩放和缓存字节一致，而bd06e5d87通过fnuz感知的融合量化和插入的帮助器路由滑动窗口K缓存。缺失的快速路径 § DeepSeek v4的注意力是稀疏的。每个查询关注由学习的索引器选出的KV缓存的前k个子集，滑动窗口上下文单独处理。它有很多运动部件：KV压缩、索引器、滑动窗口路径、FP8缓存供给每个。在生产环境中，为了获得最佳性能，每个部分都需要以调整过的内核的形式给予特别注意（没什么双关的意思）。AMD的快速调谐内核的来源是AITER。AITER是AMD的调谐内核库，大致相当于NVIDIA用户通过cuBLAS、cuDNN、FlashAttention和Transformer Engine结合获得的内容。当AITER对于给定形状没有路径时，vLLM会回退到通用Triton，而通用Triton注意力的速度是调整过内核的几倍慢。AITER对DSV4的覆盖率不均匀，现有的覆盖率通常针对后来的AMD产品（CDNA4），而不是MI300X中的CDNA3（gfx942）核心。这种影响有两种不同的表现。一些部分在gfx942上完全缺失AITER路径：分页MQA logits、稀疏MLA预填充、稀疏MLA解码。对于每个部分，我们需要放入一个ROCm特定的助手，以调用AITER。