莱比锡的基准测试

作者：安德烈·巴拉金，米克洛什·博纳，玛丽-夏洛特·布兰登堡，克拉拉·布里安，维罗妮卡·卡尔沃·科尔特斯，谢尔比·考克斯，耶稣·A·德·洛拉，达奈·德利乔尔基，汉娜·弗里德曼，蒂姆·盖宏格，基亚拉·贾尔迪诺，斯蒂芬·格里费斯，巴兰·哈什米，埃琳娜·霍斯特，亚历山大·伊万诺夫，努普尔·贾因，阿亚曼·贾尔，莱奥尼·凯瑟，约里斯·科夫勒，凯文·库恩，马里奥·库默，费利克斯·洛特，雷内·马尔青齐克，维克托·S·米勒，亚历杭德罗·莫拉莱斯，格蕾塔·帕诺瓦，吉安尼·佩特雷拉，内森·普弗格，拉克什米·拉梅什，尼科拉斯·里克，卡洛斯·罗德里格斯，安德烈亚·罗萨纳，弗拉维奥·萨利佐尼，奥托·T·P·施密特，斯文·乌尔夫·施密茨，丽娜·玛丽亚·辛巴奎巴·马林，卢卡·索多马科，克里斯蒂安·斯图姆，伯恩德·斯图姆费尔斯，亚历山大·塔维拉·布洛门霍弗，西蒙·特伦，菲利普·图赫尔，埃米尔·维尔卡马，卡尔·费利克斯·瓦勒，朱利安·威戈特，安妮特·维尔纳，内森·威廉姆斯，克劳迪乌斯·齐布罗维乌斯查看 PDF HTML（实验性）摘要：在2026年4月1日至5月15日之间，一组49位数学家编制了一组具有已知答案的研究水平数学问题的数据集。大部分工作是在德国内比锡的马克斯·普朗克科学数学研究所的为期3天的研讨会*莱比锡的基准测试*期间完成，参加人数为35人。我们展示了由此产生的100个问题的集合。我们对这些问题进行了三个阶段的评估：先由五个最先进的大型语言模型（LLM）进行一次尝试，接着是对其中三个模型进行的每个模型20次尝试的评估，最后是对两个重思模型进行的三次尝试。在第一阶段后，41个问题仍然完全未解决；第二阶段后，这一数字降至16；我们在第三阶段结束时只有2个未解答的问题。这表明，LLM的数学推理能力正日益增强。备注：包括8张基准统计表的8页内容 + 包含100个莱比锡基准问题的20页附录主题：历史与概述（math.HO）；人工智能（cs.AI）；代数几何（math.AG）；组合数学（math.CO）；表示理论（math.RT）引用：arXiv:2606.05818 [math.HO]（或arXiv:2606.05818v1 [math.HO]用于此版本） https://doi.org/10.48550/arXiv.2606.05818 arXiv发出的DOI通过DataCite（即将注册）提交历史来自：克里斯蒂安·斯图姆 [查看邮箱] [v1] 2026年6月4日星期四 07:59:08 UTC（38 KB）