为什么目前大语言模型的成本不可持续

很多公司正在被高昂的人工智能成本所困扰。优步在短短4个月内就耗尽了整整一年的人工智能预算，微软、Salesforce和Github等公司正在采取措施减少员工的人工智能支出。另一方面，人工智能使许多编程任务变得非常简单，并且在数据解释、美化幻灯片、设计应用程序和网站等其他领域不断提供帮助。目前，大型人工智能实验室拥有我们所说的前沿模型，这些模型在各种任务中的表现非常出色。前沿人工智能实验室进行研究并独立托管，因此这些模型的成本是最高的。以GPT 5.5为例，输入每百万个标记的成本为5美元，输出每百万个标记的成本为30美元。根据OpenRouter的说法，这目前是可用的最昂贵的模型。举个例子，今天下午我使用这个模型在50个文件中进行Typescript类型修复的费用高达54美元。模型性能的停滞、开放权重模型的发布、芯片和模型的改进、零转换成本和本地模型是使人工智能实验室可能无法维持当前高价的原因。我们在每次模型发布中看到了改进，但显然这些改进正在变得越来越小。除非出现完全新的突破，否则当前的学习和推理能力只能扩展到一定程度。训练数据方面也存在问题。大多数人工智能实验室可能已将数字和印刷媒体中可用的一切内容纳入模型训练。改善训练数据集将证明非常困难。这意味着由于更好的性能而导致的模型价格上涨趋势不再容易。我们看到的证据是Claude Opus 4.8的成本与Claude Opus 4.7相同。一旦模型停止大幅改善，而训练数据和方法相似，模型价格可能因竞争而下降。OpenAI在2022年推出ChatGPT时占据了巨大的领先地位，但这种领先地位正慢慢消退，我们看到Anthropic在2025-26年间夺得了首位。现在像GLM-5.2这样的开放权重模型在编码基准测试中超过了GPT和Opus。该模型的成本仅为GPT 5.5的十分之一。此时，领先的人工智能实验室不仅对推理收费，还对模型架构的研究、训练数据的收集和管理、模型训练成本（可能高达数千万或甚至数亿美元）、支付员工以及弥补营销成本收费。另一方面，开放权重模型发布后，任何推理提供商都可以轻松托管它，只需对推理成本做一些加价。这比经营一个前沿人工智能实验室要便宜得多。像Cerebras、Groq、谷歌及其他许多公司已经意识到，人工智能需要自己的硅片，普通GPU无法满足需求。专用芯片的设计非常昂贵，但一旦架构准备就绪，制造数百万个芯片就很简单，推理成本变得更便宜。例如，TPU的成本比Nvidia H100 GPU低30-70%。此类进步将不断涌现，并不断降低每个标记的价格。模型架构也在不断演变。我们看到缓存作为基本的改进，现在MoE模型和其他方法使模型在保持相同准确度的同时变得更快。传统软件如Windows操作系统、MS Office、Adobe套件以及SaaS如Salesforce、Hubspot和Figma拥有一个非常重要的护城河，而人工智能模型则没有。每一个构建的软件都是不可互换的。你不能在一个下午就更换一个客户关系管理系统；这需要几个月的时间。当更多的人工智能实验室进入该领域，更多的开放权重模型变得可用时，这个因素将导致价格迅速崩溃。人工智能网关提供商如OpenRouter.ai正在让切换模型变得极其简单。这可以在几秒钟内完成，实际上，我们可以编程实现实时更换提供商。零转换成本意味着，如果出现更好的模型，消费者可以无需时间投入地切换到它。最后但并非最不重要的是，用户运行本地模型的能力。到目前为止，几乎所有人都在使用云托管的模型，而本地模型要么太大而无法部署，要么太慢而难以使用。随着芯片的进步，这种情况在4-5年后将得到改变。更新的芯片将能够在本地运行模型，而几乎可以肯定，RAM价格的崩溃将使在计算机和智能手机上部署模型变得容易。我预测大多数操作系统将提供部署模型的方式，并且它们还将提供接口，使本地运行的应用程序能够连接到模型。当这发生时，云模型将仅用于处理最复杂的任务，而诸如代码自动完成、校对和事实检查等简单任务将本地完成。这意味着客户将不再需要那20美元或200美元的订阅。这是我个人层面的第一篇博客，我在这里做出了一些大胆的预测。只有时间能够证明。