一层够吗？单个变换器层匹配全参数RL训练

查看PDF HTML（实验性）摘要：强化学习（RL）已成为后训练大语言模型（LLM）的核心组成部分，但对于RL适应在变换器层中的分布尚未了解。现有的方法通常均匀更新所有模型参数，隐含假设每一层对RL后训练期间获得的收益贡献相似。在这项工作中，我们通过系统的逐层研究挑战了这一假设。令人惊讶的是，我们发现训练单个变换器层可以恢复大部分通过全参数RL训练所获得的收益，在某些情况下甚至超过它。为了定量化这一现象，我们引入了“层贡献”这一量度，它衡量通过单独训练一个层所恢复的全RL改进的比例。我们跨越七个模型（涵盖两个模型系列：Qwen3，Qwen2.5），三种RL算法（GRPO，GiGPO，Dr. GRPO）和多个任务领域（包括数学推理、代码生成和代理决策）进行观察，发现一个显著稳定的模式：RL收益高度集中在一个小子集的变换器层中，许多情况下甚至只在单个层中。更引人注目的是，同样的结构模式始终出现：高贡献层集中在变换器堆栈的中间，而靠近输入和输出端的层贡献显著较小。由此产生的层排名在数据集、任务、模型系列和RL算法之间保持强相关性。主题：机器学习（cs.LG）；计算与语言（cs.CL）引用为：arXiv:2607.01232 [cs.LG]（或该版本的arXiv:2607.01232v1 [cs.LG]）https://doi.org/10.48550/arXiv.2607.01232 arXiv发行的DOI通过DataCite（待注册）提交历史来自：Zijian Zhang [查看邮箱] [v1] 2026年7月1日星期三 17:59:54 UTC（268KB）