变换器需要三个投影吗？QKV变体的系统研究

查看PDF HTML（实验）摘要：变换器已经成为各种人工智能任务的标准解决方案，其中查询、键和值（QKV）注意力公式扮演了核心角色。然而，这三个投影的个别贡献以及省略某些投影的影响仍然不太清楚。我们系统地评估了三种投影共享约束：a）Q-K=V（共享键值），b）Q=K-V（共享查询-键），和c）Q=K=V（单一投影）。最后两种变体生成对称的注意力图；为了解决这个问题，我们还通过二维位置编码探索了非对称注意力。通过涵盖合成任务、视觉（MNIST、CIFAR、TinyImageNet、异常检测）和语言建模（300M和1.2B参数模型在10B标记上）的实验，我们发现我们的变换器的性能与QKV变换器相当，甚至有时更好。在语言建模中，Q-K=V投影共享实现了50%的KV缓存减少，仅有3.1%的困惑度下降。至关重要的是，投影共享与头共享（GQA/MQA）是互补的：将Q-K=V与GQA-4结合可实现87.5%的缓存减少，而Q-K=V + MQA可实现96.9%，使得在设备上的实际推理成为可能。我们展示了Q-K=V保持质量的原因在于键和值可以占据相似的表征空间，并且注意力在低秩范畴内操作，而Q=K-V破坏了注意力方向性。我们的结果系统地将投影共享表征为注意力中一个未充分探索的权重绑定实例，具有直接、可量化的推理内存优势，尤其在边缘部署中非常有价值。代码公开可用，链接在此。评论：接受于ICML 2026（PMLR 第306卷）。26页，12幅图，16个表。代码：链接在此。主题：机器学习（cs.LG）；人工智能（cs.AI）；计算与语言（cs.CL）；性能（cs.PF）ACM类：I.2.6；I.2.7；I.2.10 引用为：arXiv:2606.04032 [cs.LG]（或arXiv:2606.04032v1 [cs.LG]，对应该版本）https://doi.org/10.48550/arXiv.2606.04032 arXiv签发的DOI通过DataCite 提交历史：来自：Anusha Madan Gopal [查看电子邮件] [v1] 2026年6月1日，星期一，20:59:05 UTC（2,017 KB）