一家初创公司声称突破了制约大型语言模型的瓶颈

Subquadratic现在已分享了更多关于其新模型的细节，但一些人依然持怀疑态度。今年6月19日，史蒂芬妮·阿内特/MIT科技评论 | Adobe Stock 总部位于迈阿密的人工智能初创公司Subquadratic上个月从隐身模式中曝光，提出了一个重大声明。它宣布已解决一个数学瓶颈，该瓶颈一直制约着大型语言模型近十年。细节较少，许多人对此表示怀疑。但Subquadratic开始提供证据，分享其新技术的独立评估结果。结果表明，该公司的声明可能值得关注。根据Subquadratic的说法，他们开发了一种新型的LLM，称为SubQ，其速度更快、成本更低，且使用的能量远低于市场上其他任何模型。该公司还声称，SubQ能够一次处理最多12倍于其它大多数模型的文本，从而能够进行一系列数据密集型任务，例如分析数百份文档或整个代码库。此外，Subquadratic表示，SubQ在关键任务（如编码）上基本上与谷歌DeepMind、OpenAI和Anthropic推出的最佳模型的性能相当。问题是，该公司起初提供的证据寥寥无几，超出少数自我发布的测试分数外，几乎没有其他依据。而且，SubQ尚未广泛提供供人们亲自试用。因此，Subquadratic的声明遭遇怀疑也就不足为奇了。人工智能工程师丹·麦克阿特尔在X平台上捕捉到了整体反应：“SubQ要么是自Transformer以来最大的突破，要么就是AI Theranos。”一个月之后，该公司发布了更多关于其模型的信息，包括第三方公司Appen进行的额外独立测试结果。Subquadratic的联合创始人和首席技术官亚历克斯·韦登说：“我们预期会有合理的怀疑。回头看，在最初公告时发布第三方基准测试本可以预防很多怀疑，这就是为什么我们花时间确保任何未来的结果在发布之前都得到充分验证。”Subquadratic要求评估其他公司模型的Appen对SubQ进行测试。结果似乎支持了Subquadratic的许多声明。Appen生成式AI研究主管珍妮娜·西南-辛格表示：“这让我非常兴奋，证实了他们的架构。我当时心想，‘哇，这可能是一个游戏规则改变者’，因为模型在速度和效率上确实存在问题。”她补充道：“但是，当你有那种令人震惊的结果时，当你自己说的时候，其实并没有那么可信。”SubQ不会替代现有的顶级模型，但它可能在某些任务上以极低的典型成本提供巨大的速度提升。不过，Subquadratic坚信，长期来看，他们的突破可能会改变LLM的构建方式。该公司的联合创始人兼首席执行官贾斯汀·丹戈尔说：“我们希望开启一个新的效率时代。我们不认为未来几年还有人会继续基于变换器进行构建。”注意！为了理解为什么Subquadratic的声明是一个重大事件，让我们深入研究大多数LLM的工作原理。LLM内部的关键机制是一种称为变换器的神经网络类型，它运行一种称为稠密注意的过程。今天的LLM通常将多个变换器连接在一起（LLM时代的基础论文由谷歌的研究人员在2017年发布，标题为《注意力就是你所需要的一切》）。稠密注意的工作原理如下：当变换器处理一段文本时，它首先用一个数字编码每个单词（或部分单词，称为标记）。为了捕捉整个文本的含义，它会将这些数字与该文本的每个其它数字相乘。例如，一个长度为10,000个单词的文本将启动近5000万次单独的乘法运算。这是大量计算，也是LLM恶名昭彰的耗电量的主要原因。丹戈尔表示：“如果你想总结《了不起的盖茨比》，你必须一起看第一个单词和最后一个单词，然后你还必须看所有其它组合。”随着文本长度的增加，计算次数会急剧增加。这是因为每增加一个数字，都必须与所有其它先前的数字相乘。单词数量翻倍，计算次数大约增至四倍，这种增长率被称为二次扩展。（你可以自己想象：画一个圆圈并在其边缘标记点。每个点是一个标记。然后在点对之间画线以表示这两个标记的乘法。一个有五个点的圆圈将有10条线穿过。变成10个点时，将有45条线，20个点时将有190条线，依此类推。）削减成本Subquadratic的解决方案是抛弃稠密注意，即变换器的核心操作，转而采用一种称为稀疏注意的方法，从而大幅减少计算数量。