ISA在关键处并不重要
AMD、英特尔、英伟达、Arm和高通都在出售数据中心CPU以支持AI的建设。之前的文章将它们映射到围绕GPU的五个插槽,并按价值对这些插槽进行了排名:相干主机、标准主机、思考者、行动者、传统云。相干主机最有价值,而传统云CPU则是最不值钱的。许多读者问CPU是x86还是Arm是否重要。坦率地说,重要性没有那么大。但让我们逐个插槽来看。ISA是CPU使用的语言。软件被编译成这种语言,而一个芯片只能运行为其方言编写的代码。x86在服务器中已经默认使用数十年。然而,Arm在服务器中的份额不断增加,起初缓慢,随后随着Graviton、Axion和Cobalt在云中占据了市场,现在它们在超大规模基础设施中也越来越多地被纳入到GPU服务器堆栈中。自然,每个人都问哪种ISA对智能AI“更好”;它们两个都很好。更有趣的问题是,在每个插槽上,运行的软件是否在意它运行的ISA?具体来说,在任何智能插槽上,ISA是否是一个“护城河”?让我们看看:相干主机的护城河是与GPU的相干连接,而不是其ISA。NVLink-C2C以900 GB/s的速度将英伟达的Grace CPU与Blackwell GPU连接,提供一个共享地址空间,其中GPU将CPU DRAM读取为本地内存。Vera将该速度提升至1.8 TB/s,而Rubin更是较此翻倍。Infinity Fabric将AMD的EPYC与Instinct MI455X连接,并在相当的带宽下实现这一点。相干连接造就了这个插槽的价值所在。这是其他CPU无法复制的,除非与GPU供应商达成双边设计协议……就像NVLink Fusion……在Grace之前,英伟达的GPU服务器与标准x86主机(Intel Xeon或AMD EPYC)通过PCIe连接。Grace Hopper(2023)是英伟达首个相干超级芯片:Grace CPU(Arm,Neoverse V2)通过NVLink-C2C以900 GB/s的速度与Hopper GPU连接——也是英伟达首次在Arm服务器CPU上部署完整的数据中心CUDA栈。CUDA已经通过Jetson嵌入系列运行在Arm上,但这是服务器级的首次亮相。Grace Blackwell将其延续;Vera Rubin以自定义Arm CPU(88个英伟达设计的核心)以1.8 TB/s扩展到Rubin。因此显然,ISA不是800磅大猩猩的区别因素。主机软件可以在任一架构上运行。那么AMD呢?ROCm实际上是x86原生的。AMD的相干平台围绕EPYC构建,因此Arm的移植自然而然并不是优先事项。主要结论是ISA已经融入到加速器平台的选择中。NVLink Fusion是英伟达开启相干主机插槽以与第三方CPU结合的举措。此前,唯一可以在英伟达的后端中申请相干席位的CPU是英伟达自己制造的(Grace/Vera)。NVLink Fusion允许其他供应商将他们的处理器通过与Grace相同的高带宽相干连接与Blackwell GPU结合。请注意,目前尚没有任何NVLink Fusion产品发货,这只是宣布的合作关系。但合作伙伴列表中包括高通(Arm)、富士通、英特尔(x86)和SiFive(RISC-V)。如果这些产品问世,相干主机插槽将变得对任何ISA可访问,因此护城河绝对不是ISA。甚至RISC-V……虽然仍需要大量软件移植。标准主机的任务是保持GPU的供给:令牌输入、批量请求、通过PCIe阶段数据、管理内存。CPU需要尽可能快地工作,还需移动大量数据。PCIe在此处可能会成为瓶颈……因此需要相干主机。超大规模企业最初使用与其XPUs配对的x86标准主机,但这已经转向Arm。AWS将Graviton与Trainium配对。谷歌将Axion与其第8代TPU配对。供给XPUs的堆栈可以在x86或Arm上互换运行;ISA并不是护城河。请注意,在较小的部署中(特别是运行DGX、Instinct MI355X、RTX Pro 6000服务器等的企业和小型新云),仍然存在x86标准主机的业务。在这些设置中,主机通常在同一盒子上同时承担GPU供给和应用层工作负载的双重职责。这使遗留的x86软件依赖性重新回到了视野中,ISA确实重要。虽然数量较少,但预计会增长。结论:如果主机在作为应用处理器时承担双重职责,那么ISA就重要。否则,不重要。离GPU最近的两个轨道得出的相同答案:那里ISA并不重要。剩下的三个轨道并非都一致。有一个有真实的x86锁定故事。一个有个别问题。一个……就没那么明显。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡