经典脑力测试揭示了AI最大的弱点

人工智能系统可以写文章、回答问题和解决复杂问题。但新的研究表明，它们可能在一些人类每天都在做的事情上遇到困难：在干扰出现时保持专注。由Suketu Patel领导的研究人员将几个领先的AI模型放入一个众所周知的心理实验中，称为斯特鲁普测验。结果揭示了AI系统处理信息的方式与人脑管理注意力之间的显著差异。斯特鲁普测验是什么？斯特鲁普测验是一个经典的心理测试，已经被用于几十年研究注意力、集中力和自我控制。在测试中，显示出“红色”、“蓝色”或“绿色”等颜色词，这些词用彩色墨水印刷。有时，词和墨水颜色匹配。例如，词“红色”可能出现在红色墨水中。其他时候它们发生冲突，例如“红色”这个词用蓝色墨水打印。参与者被要求命名墨水的颜色而不是阅读词本身。这样听起来简单，但它创造了一个挑战，因为对大多数人来说，阅读词汇是一种自动的习惯。大脑必须压制阅读词的冲动，而是专注于识别墨水的颜色。心理学家通常使用这个任务来测量称为执行控制的一系列心理过程，帮助人们调节注意力、抵抗干扰并保持专注于目标。测试AI的注意力研究人员想看看现代大型语言模型（LLM）是否以与人类相同的方式处理这个挑战。LLM是像ChatGPT、Claude和Gemini等工具背后的AI系统。它们在大量文本上训练，学习语言模式，从而能够生成看似非常人性化的回应。当给出包含五个颜色词的短列表时，这些AI系统通常表现良好，即使词和颜色不匹配。然而，随着列表变得更长，情况发生了巨大变化。GPT-4o在处理五个词时达到了91%的准确率。在十个词时，其准确率下降至57%。当列表扩展到四十个词时，准确率降至仅15%。Claude 3.5 Sonnet在处理二十个词的名单时保持稳定性能，但随后经历了急剧下降，四十个词的准确率下降到24%。研究人员在GPT-5、Claude Opus 4.1和Gemini 2.5中观察到了类似的模式。当AI失去专注当匹配和不匹配的颜色词出现在同一列表中时，挑战变得更加困难。在这些条件下，表现进一步恶化。在某些情况下，不匹配项的准确率几乎降至零。根据研究人员的说法，这些AI模型在维持识别墨水颜色的指令时遇到了困难。相反，它们越来越倾向于阅读词本身。换句话说，这些系统似乎无法始终抑制它们最常训练出来的反应。这一发现特别有趣，因为人类面临类似的冲突。人们通常在阅读词汇方面比命名墨水颜色更优秀。然而，尽管存在这种偏见，大多数个体在面对长列表的冲突词和颜色时，仍能保持高准确性和稳定的表现。人类注意力与机器注意力这项研究强调了人类与人工智能之间的重要区别。尽管现代AI系统可以产生令人印象深刻的语言和推理能力，但其潜在机制与生物大脑中的注意力过程不同。人类通常能够在过滤掉竞争信息的同时，持续关注特定目标。这些结果表明，当前的AI模型可能在任务变得日益艰巨时在这种类型的认知控制上 struggled。研究人员认为，这些实验中出现的表现崩塌指向了现今大型语言模型的基本局限性。尽管AI有时可以模仿人类行为，但其维持注意力的能力似乎运作方式与人类大相径庭。这些发现提醒我们，即使是最先进的AI系统在需要抵御干扰并保持长时间专注于信息序列的任务中，依然存在弱点。