人类在这一高难度数学测试中超越了人工智能

表现最好的人工智能模型在第一组数学挑战中得分为6分（满分10分）。来源：vitacopS/Getty人工智能经历了迄今为止最严格的数学测试。结果已经公布，参与测试的人工智能模型未能达到顶级数学家的问题解决能力。这项测试是一个名为“第一证明”的项目的一部分，旨在评估人工智能解决复杂数学问题的能力，向四个人工智能系统提出了十个研究级数学问题。随后，由相关数学领域的匿名人类专家对模型的答案进行了评估。这项测试是首个同时满足三个关键条件的测试：第一，问题属于研究级数学问题；第二，涉及的数据问题不出现在训练数据中；第三，由数学家正式评分。结果于6月10日在“第一证明”网站上公布。这些发现是基于近期人工智能在解决数学问题方面的突破。例如，上个月，位于加利福尼亚州旧金山的技术公司OpenAI制作的一个聊天机器人解决了已故数学家保罗·厄尔德什提出的一个80年历史的数学挑战。“第一证明”团队表示，未来版本的测试可能有助于研究人员判断人工智能模型对数学家的实用性；例如，独立解决问题、检查证明或充当研究助理。证明这一重要创新是“第一证明”测试中的问题在以前的出版文献或互联网上没有出现过——这降低了模型可能仅仅是在重复其训练中学到的信息的风险。相反，十名来自不同数学专业的研究人员各自提供了一道他们在自己的研究过程中解决但尚未发表的问题。“第一证明”在2月进行了试点测试，使用不同的一批新问题。在那一轮中，任何人都可以尝试自己喜欢的人工智能系统来解决这些问题，许多小组也确实这样做，但结果并未得到“第一证明”团队的正式验证。也没有独立的方式来检查这些人工智能是否没有得到人类的帮助。这一次，“第一证明”团队自行组织测试：要求模型以完全自主的方式解决问题，并由30名数学家小组审查答案。“组织者显然更仔细地考虑了第二批问题，使其更具控制性和系统性，”宾夕法尼亚州卡内基梅隆大学计算辅助数学推理研究所的数学家杰里米·阿维戈德说。另一个规则是，参与的模型必须是公开可用的。这意味着谷歌的Aletheia——专为解决数学问题而设计的系统——和安瑟普里克在加利福尼亚州旧金山制作的Claude Mythos的完整未发布版本都无法使用。OpenAI是唯一参与的大公司，其模型为ChatGPT 5.5 Pro。其他系统由来自加州大学洛杉矶分校、普林斯顿大学和瑞士联邦理工学院（ETH）的三组学术团队提供。所有三组在现有聊天机器人（如ChatGPT、谷歌的Gemini和安瑟普里克的Claude公开版本）之上建立了“挂钩”（挂钩是一个自动化系统，向聊天机器人提问，并通过另一聊天机器人检查答案，通常进行反复的来回）。数学结果 ETH团队的模型表现最佳，解决了十个问题中的六个，系统通过三大聊天机器人组成的“顾问委员会”审核或改进ChatGPT的答案。构建在ChatGPT之上的UCLA团队表现第二，随后是OpenAI团队（没有挂钩的ChatGPT）和普林斯顿（主要使用Gemini 3.1 Pro作为后端的挂钩）。