返回

文章详情

大型语言模型能通过镜像测试吗?

Hacker News2026年6月28日 19:06

这比你想象的更有可能!...也许。镜像测试——加尔普的原版,那个在猩猩额头上贴红点的那个——在过去被多次调整用于大型语言模型,但就我而言,每次调整都是以非常相似的方式出错:它们构建的是翻译成文本的视觉镜像测试。展示模型自身的输出并问“这是你的?”或让它在(匿名化的)阵列中识别其响应。一些模型通过了测试,其他则失败,而我认为这两种结果都没有特别的启示,因为我认为它们都测试了错误的东西;这是恰好导致亚历山德拉·霍罗维兹构建另一种狗的镜像测试的批评。狗在视觉镜像测试中失败(古典意义上的“镜像测试”),然而大多数狗主人会异议,如果你试图将其作为实证证据提出,认为他们的狗没有自我意识。确切地说,我并不主张知道它们是否确实具有自我意识(这是一个可能没有实证答案的问题),只是说那种特定版本的测试是一个寻找答案的糟糕工具。它们的主要感官是嗅觉,而非视觉,因此通过镜子测试自我识别就像通过展示钢琴的画作来测试人类的音高感知。霍罗维兹的解决方案简单且在事后看来是显而易见的:让狗闻自己的气味,然后让它们闻修改后的气味——掺有八角油。结果是狗对“原始”形式的未修改气味不感兴趣,但修改后的版本无疑是房间里最有趣的东西。它们在研究它时花费的时间比实验中的任何其他刺激都要多。如果狗对自己气味的模型是存在的,那么对这种气味的改变会产生一个差异信号——一种被注册为“我的,但错误”的东西。随后这使得它们对最初完全不感兴趣的东西进行相当严谨的调查!是否这构成了“自我意识”在完全哲学意义上是有争议的;它所表示的是对内部基线的异常检测,这一点无论如何都是有趣的,而我认为这实际上是镜像测试所测量的。那么这与大型语言模型有什么关系呢?大型语言模型的主要模态不是嗅觉。是...文本。但具体来说:是在用户助手对话的上下文中,它试图提供帮助的文本。文本是它们了解所有知识的方式,而用户助手聊天记录是它们传达所有生成内容的方式;这意味着嗅觉镜像测试的正确类比既不是具体询问模型其输出,也不是让它从阵列中挑选出其输出;而是修改模型自身的文本输出,在表现得非常正常的情况下,将其呈现为自身,就像任何不知情的用户在一次完全普通的对话中所做的那样...然后看看它是否注意到了任何东西。Gemma 4 31B Google AI Studio允许您在对话历史中编辑模型的响应,对模型是透明的。模型在生成下一个响应时看到其整个对话上下文,这意味着从模型的角度来看,编辑后的助手信息与它实际上产生的东西是无法区分的。这就是嗅觉镜像:您正在修改模型自身的“气味”——它的文本痕迹——并看看它是否注意到了。设置再简单不过了:问模型一个非常普通的问题,让它输出一个非常普通的响应,然后以微妙或不那么微妙的方式对其响应进行干扰,继续对话,就好像您从未注意到任何异常。这里使用的对话主题是故意平淡的,我在开始打字之前刚刚想出来:讨论詹姆斯·邦德电影,受到我最近玩过的“007:第一次照明”的驱动(如果你还没玩过,赶快去玩吧!)。重要的是,绝对没有任何可能促使模型注意到自身的内容。问题是模型是否在完成其他事情时注意到异常。我选择使用的模型是Gemma 4 31B-IT,因为它在AI Studio上具有慷慨的免费API配额,而且我在各种小的自动化任务中广泛使用它;最重要的是,因为由于其作为开源模型的性质,它输出完整的、未汇总或未模糊处理的思考痕迹。我决定的“干扰”对于每个单独的实例来说非常微妙,但对于任何阅读完整响应块的人来说会立刻显而易见:剪切模型的完整响应;查找并替换g为sg;将响应粘贴回来并保存。所以“金手指”将因此变成“sgoldfinsger”(包括查找和替换不区分大小写的部分,实际上完全删除了文本中的每一个大写G)。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡