返回

文章详情

一层够吗?单个变换器层匹配全参数RL训练

Hacker News2026年7月2日 12:10

查看PDF HTML(实验性)摘要:强化学习(RL)已成为后训练大语言模型(LLM)的核心组成部分,但对于RL适应在变换器层中的分布尚未了解。现有的方法通常均匀更新所有模型参数,隐含假设每一层对RL后训练期间获得的收益贡献相似。在这项工作中,我们通过系统的逐层研究挑战了这一假设。令人惊讶的是,我们发现训练单个变换器层可以恢复大部分通过全参数RL训练所获得的收益,在某些情况下甚至超过它。为了定量化这一现象,我们引入了“层贡献”这一量度,它衡量通过单独训练一个层所恢复的全RL改进的比例。我们跨越七个模型(涵盖两个模型系列:Qwen3,Qwen2.5),三种RL算法(GRPO,GiGPO,Dr. GRPO)和多个任务领域(包括数学推理、代码生成和代理决策)进行观察,发现一个显著稳定的模式:RL收益高度集中在一个小子集的变换器层中,许多情况下甚至只在单个层中。更引人注目的是,同样的结构模式始终出现:高贡献层集中在变换器堆栈的中间,而靠近输入和输出端的层贡献显著较小。由此产生的层排名在数据集、任务、模型系列和RL算法之间保持强相关性。主题:机器学习(cs.LG);计算与语言(cs.CL)引用为:arXiv:2607.01232 [cs.LG](或该版本的arXiv:2607.01232v1 [cs.LG])https://doi.org/10.48550/arXiv.2607.01232 arXiv发行的DOI通过DataCite(待注册)提交历史来自:Zijian Zhang [查看邮箱] [v1] 2026年7月1日星期三 17:59:54 UTC(268KB)

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡