潜在代理：一种内化多代理辩论的后训练程序

查看 PDF HTML（实验性）摘要：多代理辩论已被证明可以改善大型语言模型（LLM）的推理能力。然而，这是一项计算密集型的任务，需要在回答问题之前生成长篇的记录。为了解决这一低效问题，我们开发了一个框架，通过结合辩论结构学习和通过动态奖励调度及长度剪裁的内化，使用两阶段微调管道将多代理辩论提炼到单一的 LLM 中。在多个模型和基准测试中，我们的内化模型使用最多 93% 更少的标记，与显式的多代理辩论性能匹配或超出。然后，我们通过激活引导调查这一能力的机械基础，发现内化生成了代理特定的子空间：在激活空间中对应于不同代理视角的可解释方向。我们进一步展示了一个实际应用：通过在 LLM 中内化辩论灌输恶意代理，然后应用负引导来抑制它们，我们表明提炼使有害行为更容易定位和控制，而与基本模型的引导相比，性能减少更小。我们的发现为理解提炼模型中的多代理能力提供了新的视角，并为控制内化推理行为提供了实际指导。代码可在此 https URL 获得评论：ACL 2026 主要主题：人工智能 (cs.AI) 引用为：arXiv:2604.24881 [cs.AI]（或 arXiv:2604.24881v1 [cs.AI] 作为此版本） https://doi.org/10.48550/arXiv.2604.24881 arXiv 发出的 DOI 通过 DataCite（待注册）提交历史发送自：John Seon Keun Yi [查看电子邮件] [v1] 2026年4月27日星期一 18:06:03 UTC（8,283 KB）