我可以购买您的 KV 缓存吗？

查看 PDF HTML（实验性）摘要：目前，在全球范围内，人工智能代理正在重复同样荒谬的行为：为了阅读一份文档，它们各自从头开始重新计算。每个代理重新运行预填充，这是大型模型执行的计算密集型步骤，针对相同的文本，只是为了重新构建与其前一个代理刚刚构建的键值（KV）缓存相同的缓存。相同的答案，被计算了百万次。我们提出一个几乎冒犯性的简单提议：只计算一次。让发布者预先计算文档的 KV 缓存，让其他每个代理购买加载它并跳过预填充的权利。这是可行的，而且是完全匹配的：加载预计算的 KV 并继续与从头开始的预填充相匹配（24/24 贪婪令牌，并且在 logits 级别），没有准确度损失。在 Qwen3-4B 上，重用的计算成本比预填充便宜 9-50 倍，并且随着长度的增加差距会加大（预填充的注意力与 L^2 成比例），因此一次重用就已经能回本。接下来是重要的部分：KV 存在的位置。运输失效，因为 KV 几乎无法压缩，因此每次加载的外发成本高于节省的预填充成本。将其托管在提供商端，正如生产提示缓存工作那样，完全消除了外发。奖品的规模由我们测量的计算节省决定：向 8000 万个代理提供一份热的 3774 令牌文档的预填充成本约为 150 万美元，但重用计算仅需约 3 万美元（少 49.7 倍）。0.1 倍缓存读取关税 API 在此测量范围内向用户传递 10 倍折扣，因此这个 10 倍是一个底线，测量的约 50 倍计算节省超过了这个底线，而物理的约 50 倍之间的差距是提供商利润：每个流行文档数百万美元。我们构建了结果代理本地的预填充 CDN，并将无损 KV 压缩和跨方支付层作为开放问题。主题：人工智能（cs.AI）；计算工程、金融和科学（cs.CE）；多智能体系统（cs.MA）引用为：arXiv:2606.13361 [cs.AI]（或 arXiv:2606.13361v1 [cs.AI] 为此版本）https://doi.org/10.48550/arXiv.2606.13361 arXiv 发布的 DOI 通过 DataCite（待注册）提交历史从：Luoyuan Zhang [查看电子邮件] [v1] 2026年6月11日 13:47:33 UTC（113 KB）