返回

文章详情

莱比锡的基准测试

Hacker News2026年6月6日 14:00

作者:安德烈·巴拉金,米克洛什·博纳,玛丽-夏洛特·布兰登堡,克拉拉·布里安,维罗妮卡·卡尔沃·科尔特斯,谢尔比·考克斯,耶稣·A·德·洛拉,达奈·德利乔尔基,汉娜·弗里德曼,蒂姆·盖宏格,基亚拉·贾尔迪诺,斯蒂芬·格里费斯,巴兰·哈什米,埃琳娜·霍斯特,亚历山大·伊万诺夫,努普尔·贾因,阿亚曼·贾尔,莱奥尼·凯瑟,约里斯·科夫勒,凯文·库恩,马里奥·库默,费利克斯·洛特,雷内·马尔青齐克,维克托·S·米勒,亚历杭德罗·莫拉莱斯,格蕾塔·帕诺瓦,吉安尼·佩特雷拉,内森·普弗格,拉克什米·拉梅什,尼科拉斯·里克,卡洛斯·罗德里格斯,安德烈亚·罗萨纳,弗拉维奥·萨利佐尼,奥托·T·P·施密特,斯文·乌尔夫·施密茨,丽娜·玛丽亚·辛巴奎巴·马林,卢卡·索多马科,克里斯蒂安·斯图姆,伯恩德·斯图姆费尔斯,亚历山大·塔维拉·布洛门霍弗,西蒙·特伦,菲利普·图赫尔,埃米尔·维尔卡马,卡尔·费利克斯·瓦勒,朱利安·威戈特,安妮特·维尔纳,内森·威廉姆斯,克劳迪乌斯·齐布罗维乌斯 查看 PDF HTML(实验性) 摘要:在2026年4月1日至5月15日之间,一组49位数学家编制了一组具有已知答案的研究水平数学问题的数据集。大部分工作是在德国内比锡的马克斯·普朗克科学数学研究所的为期3天的研讨会*莱比锡的基准测试*期间完成,参加人数为35人。我们展示了由此产生的100个问题的集合。我们对这些问题进行了三个阶段的评估:先由五个最先进的大型语言模型(LLM)进行一次尝试,接着是对其中三个模型进行的每个模型20次尝试的评估,最后是对两个重思模型进行的三次尝试。在第一阶段后,41个问题仍然完全未解决;第二阶段后,这一数字降至16;我们在第三阶段结束时只有2个未解答的问题。这表明,LLM的数学推理能力正日益增强。 备注:包括8张基准统计表的8页内容 + 包含100个莱比锡基准问题的20页附录 主题:历史与概述(math.HO);人工智能(cs.AI);代数几何(math.AG);组合数学(math.CO);表示理论(math.RT) 引用:arXiv:2606.05818 [math.HO](或arXiv:2606.05818v1 [math.HO]用于此版本) https://doi.org/10.48550/arXiv.2606.05818 arXiv发出的DOI通过DataCite(即将注册) 提交历史 来自:克里斯蒂安·斯图姆 [查看邮箱] [v1] 2026年6月4日 星期四 07:59:08 UTC(38 KB)

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡