大型语言模型现在变得复杂了

在2022年和2023年，Meta发生了两个主要的机器学习分支。导致Llama的LLM工作是一套干净、平滑的重复Transformer模块堆叠；而推荐系统图则相对恐怖。但幸运的是，行业通过使LLM变得更加复杂来改善了这一状况。Seb Raschka维护着一个出色的模型架构画廊。你可以利用它来比较两个各自时代最佳的开放模型，Llama 3和Nemotron 3 Ultra。注意力可能是你所需的一切，但现代模型确实使用了很多不同的变种：查询分组、压缩、稀疏、线性、滑动窗口等。专家混合模型添加了选择性路由以供前馈层使用，而我们从那时起也开始对其他几乎所有内容进行路由，从注意力块到残差流。视觉和音频编码器已经从附加组件变为混合组件，模型已经扩展到能够在多个GPU上运行推理，这在模型中增加了通信操作的边界。这与推荐系统的情况没有太大不同。在过去十年中，推荐系统的基本架构相对简单，由两个塔构成的稀疏神经网络。复杂性源于不断提升能力的需求与保持高效的需求之间的紧张关系，特别是在推理方面。很容易假设代理会解决这个问题：你会将你的PyTorch或JAX定义交给Claude Telenovela或其他工具，让它生成最优融合的内核。要使这个过程成功，你需要一个固定、可用的基线，以确保生成的内容是……正确的。推荐系统的情况是，性能优化与性能必要性之间的差距变得非常小。从概念上讲，你可以保持一个纯模型定义，这为你提供了一个基线；但在实践中，训练和测试一个模型需要大量资源，性能提升也变得非常重要。如果你想将注意力变体A换成变体B，你可以容忍B的速度慢10%。但你可能无法接受它的性能差得多。如果A是融合和优化的，那么在能够判断B是否值得探索之前，你需要至少一个部分融合和优化的B。研究迭代循环需要不同于“优化这个已知量”的灵活性。你无法通过手动融合的方式回到原点而不投入大量可能不值得的时间，同样，在没有基线进行检查的情况下，你也无法推进研究。唯一的方法是提前设计可组合性。近年来我最喜欢的内核开发之一是PyTorch中的FlexAttention，它涵盖了一类注意力操作，并允许你通过Triton模板生成它们的内核。它建立在大量注意力内核的研究基础之上，并被设计为提前可组合和可验证：你可以以非常小的性能影响进行探索。Andrej Karpathy最近加入了Anthropic，部分原因是为了在前沿开发更丰富的自动研究风格循环。正如他在过去几年所展示的那样，能够将架构精简到本质并使其可组合，与在攀登那种高峰时拥有一个聪明的代理设置一样重要。还有许多更小的高峰，我向我所有的内容理解和完整性团队致敬。