大型语言模型并不是你所承诺的黑箱

关于大型语言模型的生物学（Anthropic，2025）大型语言模型并不是你所承诺的“黑箱”。机制可解释性——深入神经网络反向工程其内部工作机制——已经取得了重大进展。Anthropic 的《关于大型语言模型的生物学（2025）》是这一努力的里程碑。接下来是他们进展的总结和一些相关思考。大型语言模型实际上在“思考”什么？我们如何理解大型语言模型在“思考”什么？显然，这样做是非常有价值的——它可以使得我们能够引导模型行为、检测危险意图等等。但这远比简单观察单个神经元的激活要困难，因为存在叠加现象：一个神经元参与许多不相关的概念，而任何给定概念在许多神经元中都是模糊的。你不能仅仅从一个单元读取意义。你需要发挥创造力。电路追踪一种方法：训练第二个模型来识别离散概念，然后监控这些概念在前向传递过程中的交互。Anthropic 的电路追踪技术训练一个“替代”模型，以稀疏重建基础模型的 MLP 层输出。这有效地将基础模型的激活分解成一组稀疏特征——结果表明这些特征对应于人类可以轻易识别的高级概念，如“德克萨斯州”或“奥林匹克运动会”。一旦你获得了这些人类可理解的特征，就可以通过追踪它们在前向传递过程中的交互将其分组为因果关联的聚类——构建一个计算的连接图模型。模型确实以多个步骤进行推理当你在实践中运行这一过程时，可以观察到模型通过中介概念进行真正的多步骤推理。模型甚至会在规划诗歌时“展望”未来的押韵候选词。问它“含有达拉斯的州的首府是什么”，你可以观察到，依次是：达拉斯特征激活，这导致德克萨斯特征点亮，接着使得奥斯汀点亮。这似乎相当明确，这是在追踪高级概念之间的语义关系——并通过这样做执行一种伪符号推理，这与一些哲学家所描述的“更高层次的推理”相似。这并非仅适用于大型语言模型这种现象并不仅仅适用于语言模型。基于 MCTS 的系统，如 AlphaZero 也会收敛到人类能认可的概念。DeepMind（2022）显示，AlphaZero 学会了与人类棋类概念一致的中介表征，如“将军”和“钉住一子”——完全依靠自己，没有提供任何人类棋类知识。更好的理解 → 更好的算法分解模型的隐式推理可以帮助我们设计更好的学习算法。例如：Claude 3.5 Haiku 学会了一种小整数加法的算法，这种算法无法与人类心算清晰映射。它将问题分解为多个并行路径——同时计算一个粗略数值与精确的个位数——再将它们重组，依赖于记忆的“查找表”特征。接下来自然会问：我们能否识别出这个，然后“引导”模型朝向更好的算法？模型有一个“潜意识”值得注意的是，模型本身并不一定对通过电路追踪发现的潜在思维过程具有元认知的洞察。在问它如何将两个数字相加时，它会叙述一个整齐的人类风格程序——这并不是它实际运行的算法。无论好坏，模型拥有某种程度的潜意识。这正是让我们能窥探其中的原因。为什么这很重要机制可解释性是一个迷人且快速发展的研究领域，已经在得分板上取得了重大胜利。与十年前你的机器学习教授可能告诉你的相反，在某些方面，这是我们从模型中提取的最多的洞察。而这些影响是显著的——对于识别模型的错误行为、进行引导，甚至为设计更好的学习算法。对于原始讨论，请参见在 X 上的帖子。有关完整研究，请阅读 Anthropic 的论文。Jay Hack