经典脑力测试揭示了AI最大的弱点
人工智能系统可以写文章、回答问题和解决复杂问题。但新的研究表明,它们可能在一些人类每天都在做的事情上遇到困难:在干扰出现时保持专注。由Suketu Patel领导的研究人员将几个领先的AI模型放入一个众所周知的心理实验中,称为斯特鲁普测验。结果揭示了AI系统处理信息的方式与人脑管理注意力之间的显著差异。斯特鲁普测验是什么?斯特鲁普测验是一个经典的心理测试,已经被用于几十年研究注意力、集中力和自我控制。在测试中,显示出“红色”、“蓝色”或“绿色”等颜色词,这些词用彩色墨水印刷。有时,词和墨水颜色匹配。例如,词“红色”可能出现在红色墨水中。其他时候它们发生冲突,例如“红色”这个词用蓝色墨水打印。参与者被要求命名墨水的颜色而不是阅读词本身。这样听起来简单,但它创造了一个挑战,因为对大多数人来说,阅读词汇是一种自动的习惯。大脑必须压制阅读词的冲动,而是专注于识别墨水的颜色。心理学家通常使用这个任务来测量称为执行控制的一系列心理过程,帮助人们调节注意力、抵抗干扰并保持专注于目标。测试AI的注意力 研究人员想看看现代大型语言模型(LLM)是否以与人类相同的方式处理这个挑战。LLM是像ChatGPT、Claude和Gemini等工具背后的AI系统。它们在大量文本上训练,学习语言模式,从而能够生成看似非常人性化的回应。当给出包含五个颜色词的短列表时,这些AI系统通常表现良好,即使词和颜色不匹配。然而,随着列表变得更长,情况发生了巨大变化。GPT-4o在处理五个词时达到了91%的准确率。在十个词时,其准确率下降至57%。当列表扩展到四十个词时,准确率降至仅15%。Claude 3.5 Sonnet在处理二十个词的名单时保持稳定性能,但随后经历了急剧下降,四十个词的准确率下降到24%。研究人员在GPT-5、Claude Opus 4.1和Gemini 2.5中观察到了类似的模式。当AI失去专注 当匹配和不匹配的颜色词出现在同一列表中时,挑战变得更加困难。在这些条件下,表现进一步恶化。在某些情况下,不匹配项的准确率几乎降至零。根据研究人员的说法,这些AI模型在维持识别墨水颜色的指令时遇到了困难。相反,它们越来越倾向于阅读词本身。换句话说,这些系统似乎无法始终抑制它们最常训练出来的反应。这一发现特别有趣,因为人类面临类似的冲突。人们通常在阅读词汇方面比命名墨水颜色更优秀。然而,尽管存在这种偏见,大多数个体在面对长列表的冲突词和颜色时,仍能保持高准确性和稳定的表现。人类注意力与机器注意力 这项研究强调了人类与人工智能之间的重要区别。尽管现代AI系统可以产生令人印象深刻的语言和推理能力,但其潜在机制与生物大脑中的注意力过程不同。人类通常能够在过滤掉竞争信息的同时,持续关注特定目标。这些结果表明,当前的AI模型可能在任务变得日益艰巨时在这种类型的认知控制上 struggled。研究人员认为,这些实验中出现的表现崩塌指向了现今大型语言模型的基本局限性。尽管AI有时可以模仿人类行为,但其维持注意力的能力似乎运作方式与人类大相径庭。这些发现提醒我们,即使是最先进的AI系统在需要抵御干扰并保持长时间专注于信息序列的任务中,依然存在弱点。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡