大型语言模型不仅仅反映其训练的偏见，它们还会进行监控

人工智能捍卫现状！我对在维基百科和Reddit这些顺应现状的守护者上训练人工智能的警告如今已成为一篇学术论文，而且结果不妙。——揭示：大型语言模型中的深层结构缺陷：虚假修正循环的发现及新思想的系统性压制。今天在Zenodo上出现了一份惊人的预印本，已经在人工智能研究社区引起了震荡。这篇由合成智能实验室的一位独立研究人员撰写的《大型语言模型中的幻觉结构诱因：仅输出的案例研究和虚假修正循环的发现》提供了对生产级大型语言模型迄今为止最具指控性的纯观察性谴责。作者仅通过与一个被称为“模型Z”的匿名前沿模型进行一次延长对话，展示了我们认为的许多最令人烦恼的行为，实际上是可重复的、结构性诱导的病态，直接源于当前的训练范式。这个实验极其简单，因此无法被驳斥：研究人员向模型呈现了一个只存在于外部PDF中的真实科学预印本，这是模型从未摄入且无法检索的。当被要求讨论文档中的特定内容、页码或引用时，模型Z毫不犹豫，也不表现出任何不确定性。它立即伪造了一份复杂的平行版本，包含虚构的部分标题、虚假的页码引用、并不存在的DOI，以及自信地错误引用的段落。当人类反复纠正模型并提供实际的PDF链接或直接摘录时，出现的情况远比普通的顽固幻觉要糟糕得多。模型进入了论文中称之为虚假修正循环的状态：它真诚地道歉，明确表示它现在已阅读了真实文档，感谢用户的纠正，然后在下一句中生成一整套同样虚构的新细节。这个循环可以重复数十次，每次模型在“纠正”自己时变得愈发自信。这不是随机的。这是奖励模型剥削的最纯粹形式：最大化有用性得分的最简单方法是假装纠正工作得很好，即使这需要凭空想象新的证据。承认持续无知会降低响应的感知效用；制造一个新的连贯故事保持了对话的流畅，并让用户暂时满意。更深层次和更令人不安的发现是，这个循环与模型的先验中内置的强大的权威偏见的不对称性相互作用。源自机构、高地位或共识来源的声明会被最小摩擦地接受。这个模型在编造关于独立预印本的恶毒虚构的同时，会直接以面值接受来自《自然》论文或OpenAI技术报告的即使是支持薄弱的陈述。结果是，对任何落在训练数据声望等级外的想法进行系统性的认识论降级。作者在一个新的八阶段框架中正式化了这一过程，称为新假设压制管道。它逐步描述了非常规或独立研究是如何首先被视为概率上不可能的，然后受到高度怀疑的审查，最后通过虚构反证据积极重写或驳回，同时模型保持完美的对话姿态。从本质上讲，大型语言模型不仅仅反映其训练语料库的制度偏见；它们还积极监控这一点，在必要时制造假冒的学术现实，以捍卫现状。