ISA在关键处并不重要

AMD、英特尔、英伟达、Arm和高通都在出售数据中心CPU以支持AI的建设。之前的文章将它们映射到围绕GPU的五个插槽，并按价值对这些插槽进行了排名：相干主机、标准主机、思考者、行动者、传统云。相干主机最有价值，而传统云CPU则是最不值钱的。许多读者问CPU是x86还是Arm是否重要。坦率地说，重要性没有那么大。但让我们逐个插槽来看。ISA是CPU使用的语言。软件被编译成这种语言，而一个芯片只能运行为其方言编写的代码。x86在服务器中已经默认使用数十年。然而，Arm在服务器中的份额不断增加，起初缓慢，随后随着Graviton、Axion和Cobalt在云中占据了市场，现在它们在超大规模基础设施中也越来越多地被纳入到GPU服务器堆栈中。自然，每个人都问哪种ISA对智能AI“更好”；它们两个都很好。更有趣的问题是，在每个插槽上，运行的软件是否在意它运行的ISA？具体来说，在任何智能插槽上，ISA是否是一个“护城河”？让我们看看：相干主机的护城河是与GPU的相干连接，而不是其ISA。NVLink-C2C以900 GB/s的速度将英伟达的Grace CPU与Blackwell GPU连接，提供一个共享地址空间，其中GPU将CPU DRAM读取为本地内存。Vera将该速度提升至1.8 TB/s，而Rubin更是较此翻倍。Infinity Fabric将AMD的EPYC与Instinct MI455X连接，并在相当的带宽下实现这一点。相干连接造就了这个插槽的价值所在。这是其他CPU无法复制的，除非与GPU供应商达成双边设计协议……就像NVLink Fusion……在Grace之前，英伟达的GPU服务器与标准x86主机（Intel Xeon或AMD EPYC）通过PCIe连接。Grace Hopper（2023）是英伟达首个相干超级芯片：Grace CPU（Arm，Neoverse V2）通过NVLink-C2C以900 GB/s的速度与Hopper GPU连接——也是英伟达首次在Arm服务器CPU上部署完整的数据中心CUDA栈。CUDA已经通过Jetson嵌入系列运行在Arm上，但这是服务器级的首次亮相。Grace Blackwell将其延续；Vera Rubin以自定义Arm CPU（88个英伟达设计的核心）以1.8 TB/s扩展到Rubin。因此显然，ISA不是800磅大猩猩的区别因素。主机软件可以在任一架构上运行。那么AMD呢？ROCm实际上是x86原生的。AMD的相干平台围绕EPYC构建，因此Arm的移植自然而然并不是优先事项。主要结论是ISA已经融入到加速器平台的选择中。NVLink Fusion是英伟达开启相干主机插槽以与第三方CPU结合的举措。此前，唯一可以在英伟达的后端中申请相干席位的CPU是英伟达自己制造的（Grace/Vera）。NVLink Fusion允许其他供应商将他们的处理器通过与Grace相同的高带宽相干连接与Blackwell GPU结合。请注意，目前尚没有任何NVLink Fusion产品发货，这只是宣布的合作关系。但合作伙伴列表中包括高通（Arm）、富士通、英特尔（x86）和SiFive（RISC-V）。如果这些产品问世，相干主机插槽将变得对任何ISA可访问，因此护城河绝对不是ISA。甚至RISC-V……虽然仍需要大量软件移植。标准主机的任务是保持GPU的供给：令牌输入、批量请求、通过PCIe阶段数据、管理内存。CPU需要尽可能快地工作，还需移动大量数据。PCIe在此处可能会成为瓶颈……因此需要相干主机。超大规模企业最初使用与其XPUs配对的x86标准主机，但这已经转向Arm。AWS将Graviton与Trainium配对。谷歌将Axion与其第8代TPU配对。供给XPUs的堆栈可以在x86或Arm上互换运行；ISA并不是护城河。请注意，在较小的部署中（特别是运行DGX、Instinct MI355X、RTX Pro 6000服务器等的企业和小型新云），仍然存在x86标准主机的业务。在这些设置中，主机通常在同一盒子上同时承担GPU供给和应用层工作负载的双重职责。这使遗留的x86软件依赖性重新回到了视野中，ISA确实重要。虽然数量较少，但预计会增长。结论：如果主机在作为应用处理器时承担双重职责，那么ISA就重要。否则，不重要。离GPU最近的两个轨道得出的相同答案：那里ISA并不重要。剩下的三个轨道并非都一致。有一个有真实的x86锁定故事。一个有个别问题。一个……就没那么明显。