Maxproof

作者：陈嘉诚，张鑫宇，张顺凯，王彦摩，李林，秦天成，王骏，朱正茂，李天乐，李静扬，李泽涵，蒋彬扬，朱金，丁汉，余飞，杜晨宇，宋子健，宋家元，张直，黄宇楠，程伟宇，赵鹏宇，程宇查看 PDF HTML（实验性）摘要：我们提出了 MaxProof，这是一个用于 MiniMax-M3 系列竞赛级数学证明的人口级测试时间缩放框架。M3 首先训练了三个面向证明的能力——证明生成、证明验证和基于评估的证明修复，使用专为低误报率而设计的深度防御生成验证器。这些能力被合并为一个单一的发布 M3 模型。在测试时，MaxProof 将模型视为生成器、验证器、精炼器和排名器，搜索候选证明的人口，并通过锦标赛选择返回一个最终的证明。借助 MaxProof 测试时间缩放，M3 模型在 IMO 2025 上达到了 35/42，在 USAMO 2026 上达到了 36/42，超过了两者的人类金牌门槛。主题：机器学习（cs.LG）；人工智能（cs.AI）；计算与语言（cs.CL）引用为：arXiv:2606.13473 [cs.LG]（或此版本可引用为 arXiv:2606.13473v1 [cs.LG]） https://doi.org/10.48550/arXiv.2606.13473 arXiv 发布的 DOI 通过 DataCite（待注册）提交历史来自：陈嘉诚 [查看邮箱] [v1] 2026年6月11日星期四 15:27:06 UTC (2,912 KB)