返回

文章详情

我可以购买您的 KV 缓存吗?

Hacker News2026年6月12日 20:14

查看 PDF HTML(实验性)摘要:目前,在全球范围内,人工智能代理正在重复同样荒谬的行为:为了阅读一份文档,它们各自从头开始重新计算。每个代理重新运行预填充,这是大型模型执行的计算密集型步骤,针对相同的文本,只是为了重新构建与其前一个代理刚刚构建的键值(KV)缓存相同的缓存。相同的答案,被计算了百万次。我们提出一个几乎冒犯性的简单提议:只计算一次。让发布者预先计算文档的 KV 缓存,让其他每个代理购买加载它并跳过预填充的权利。这是可行的,而且是完全匹配的:加载预计算的 KV 并继续与从头开始的预填充相匹配(24/24 贪婪令牌,并且在 logits 级别),没有准确度损失。在 Qwen3-4B 上,重用的计算成本比预填充便宜 9-50 倍,并且随着长度的增加差距会加大(预填充的注意力与 L^2 成比例),因此一次重用就已经能回本。接下来是重要的部分:KV 存在的位置。运输失效,因为 KV 几乎无法压缩,因此每次加载的外发成本高于节省的预填充成本。将其托管在提供商端,正如生产提示缓存工作那样,完全消除了外发。奖品的规模由我们测量的计算节省决定:向 8000 万个代理提供一份热的 3774 令牌文档的预填充成本约为 150 万美元,但重用计算仅需约 3 万美元(少 49.7 倍)。0.1 倍缓存读取关税 API 在此测量范围内向用户传递 10 倍折扣,因此这个 10 倍是一个底线,测量的约 50 倍计算节省超过了这个底线,而物理的约 50 倍之间的差距是提供商利润:每个流行文档数百万美元。我们构建了结果代理本地的预填充 CDN,并将无损 KV 压缩和跨方支付层作为开放问题。主题:人工智能(cs.AI);计算工程、金融和科学(cs.CE);多智能体系统(cs.MA)引用为:arXiv:2606.13361 [cs.AI](或 arXiv:2606.13361v1 [cs.AI] 为此版本)https://doi.org/10.48550/arXiv.2606.13361 arXiv 发布的 DOI 通过 DataCite(待注册)提交历史 从:Luoyuan Zhang [查看电子邮件] [v1] 2026年6月11日 13:47:33 UTC(113 KB)

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡