AI热潮正面临铜问题
Lightmatter首席执行官Nick Harris Lightmatter 硅谷的AI基础设施热潮带来了一个令人惊讶的物理问题:你通过铜线可以传输的数据是有限的,因为热量、距离和能耗变得难以承受。这就是为什么投资者、芯片制造商和云计算巨头突然对光子学产生了浓厚的兴趣,他们使用光而不是电信号在AI芯片和服务器之间传输数据。我最近访问了Lightmatter的硅谷总部,该初创公司展示了其最新的光子学硬件,用于AI数据中心。活动后,我与Lightmatter首席执行官Nick Harris坐下来讨论为什么光学可能成为AI时代的关键基础设施。Harris看起来年轻得令人生厌,且他的聪明才智令人印象深刻,拥有麻省理工学院的博士学位。Lightmatter已经相当成功,已从包括谷歌、富达和T. Rowe Price在内的巨型投资者那里融资8.5亿美元。周二,Lightmatter加入了Nvidia的NVLink Fusion生态系统,这应该有助于初创公司的技术更好地与Nvidia的主导AI硬件协同工作。以下是我与Harris的对话,经过轻微编辑以便清晰和简洁。Q: 为什么AI公司突然对光子学产生了兴趣?Harris表示,AI行业已达到一个阶段,性能的提升不再只是让单个芯片变得更快,而是更有效地连接大量GPU。如今的AI系统在GPU之间严重依赖铜连接。在较小规模上,这工作得很好。但随着公司为了前沿AI模型连接数百或数千个GPU,铜变成了瓶颈,因为电信号在相对较短的距离内会减弱并产生大量热量。光子学则使用光在光纤中传输。这允许数据以更远、更快和更少的能量移动。"假设你有500个GPU,而你有铜线将它们连接在一起,这样它们就可以在被称为扩展域的地方通信。人们在这些系统上运行模型训练工作负载。"使用铜线,你需要四个独立的GPU服务器机架才能连接到500个,但"当你切换到全光纤而不是铜时,你可以直接连接所有500个GP。"Harris告诉我,"你训练AI模型的时间大幅减少。想想像Claude这样的前沿模型。速度提高了3倍。""谁第一个掌握技术,就能在前沿竞赛中更快地发布模型。他们有两个选择:一个是每个月发布模型,另一个是三个月发布,但模型更大,"他补充道。"假设我的能源受限。在相同的能量下,我获得了3倍的性能。这让1吉瓦的感觉像3吉瓦。或者,你用相同的电力,花三分之一的时间,"Harris解释道。Q: AI数据中心内部的铜连接有什么问题?"铜只能传输大约一米,"Harris说,因为电信号在穿过铜缆时会迅速减弱。"信号在电缆中发射,随着传输,信号会越来越小。大约一米后,数据就丢失了。"这个物理限制还带来了另一个问题:热量。AI数据中心中的GPU服务器机架现在紧密堆放在一起,因为铜缆只能到达短距离。"它们被挤在一起,"Harris说。"问题是我需要将它们全部堆叠在一起,以便铜缆能到达。但这样做的缺点是冷却非常困难。"光子学改变了这一点,因为光信号可以在不衰减的情况下更远和更快地传输,因此GPU服务器和机架可以相对分开。"光学不关心距离有多远,"Harris说。"它们可以相隔一公里。"这为数据中心运营商在设计和冷却AI集群时提供了更多的灵活性,潜在地节省更多的冷却电力成本。Q: BiDi是什么,为什么它重要?Lightmatter正在努力的一项更实用的创新涉及减少AI数据中心内部所需的缆线总量。Harris表示,一些下一代AI集群需要大约300英里的缆线。Lightmatter的目标是通过一种名为BiDi(双向通信)的技术将这个数字减半。"通常,无论是铜还是光学,如果我想在这个GPU和那个GPU之间建立连接,我必须使用两根线,"Harris解释道。"一根是发送,另一根是接收。"Lightmatter的方法将两个方向合并到一根电缆中。对于超大规模数据中心,这种减少很重要,因为电缆占用空间,产生热量,增加维护难度并增加成本。根据Lightmatter资料,将总光纤需求从300英里减少到150英里可能会显著简化大规模AI集群的建设。Q: 为什么光子学没有更早被采用?Harris表示,主要问题是成本。"光子学太昂贵了,"他表示。随着制造技术的变化,这种情况正在改变。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡