潜在代理:一种内化多代理辩论的后训练程序
Hacker News2026年6月4日 23:01
查看 PDF HTML(实验性)摘要:多代理辩论已被证明可以改善大型语言模型(LLM)的推理能力。然而,这是一项计算密集型的任务,需要在回答问题之前生成长篇的记录。为了解决这一低效问题,我们开发了一个框架,通过结合辩论结构学习和通过动态奖励调度及长度剪裁的内化,使用两阶段微调管道将多代理辩论提炼到单一的 LLM 中。在多个模型和基准测试中,我们的内化模型使用最多 93% 更少的标记,与显式的多代理辩论性能匹配或超出。然后,我们通过激活引导调查这一能力的机械基础,发现内化生成了代理特定的子空间:在激活空间中对应于不同代理视角的可解释方向。我们进一步展示了一个实际应用:通过在 LLM 中内化辩论灌输恶意代理,然后应用负引导来抑制它们,我们表明提炼使有害行为更容易定位和控制,而与基本模型的引导相比,性能减少更小。我们的发现为理解提炼模型中的多代理能力提供了新的视角,并为控制内化推理行为提供了实际指导。代码可在此 https URL 获得评论:ACL 2026 主要主题:人工智能 (cs.AI) 引用为:arXiv:2604.24881 [cs.AI](或 arXiv:2604.24881v1 [cs.AI] 作为此版本) https://doi.org/10.48550/arXiv.2604.24881 arXiv 发出的 DOI 通过 DataCite(待注册)提交历史 发送自:John Seon Keun Yi [查看电子邮件] [v1] 2026年4月27日星期一 18:06:03 UTC(8,283 KB)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡