Maxproof
Hacker News2026年6月12日 12:00
作者:陈嘉诚,张鑫宇,张顺凯,王彦摩,李林,秦天成,王骏,朱正茂,李天乐,李静扬,李泽涵,蒋彬扬,朱金,丁汉,余飞,杜晨宇,宋子健,宋家元,张直,黄宇楠,程伟宇,赵鹏宇,程宇 查看 PDF HTML(实验性) 摘要:我们提出了 MaxProof,这是一个用于 MiniMax-M3 系列竞赛级数学证明的人口级测试时间缩放框架。M3 首先训练了三个面向证明的能力——证明生成、证明验证和基于评估的证明修复,使用专为低误报率而设计的深度防御生成验证器。这些能力被合并为一个单一的发布 M3 模型。在测试时,MaxProof 将模型视为生成器、验证器、精炼器和排名器,搜索候选证明的人口,并通过锦标赛选择返回一个最终的证明。借助 MaxProof 测试时间缩放,M3 模型在 IMO 2025 上达到了 35/42,在 USAMO 2026 上达到了 36/42,超过了两者的人类金牌门槛。 主题:机器学习(cs.LG);人工智能(cs.AI);计算与语言(cs.CL) 引用为:arXiv:2606.13473 [cs.LG](或此版本可引用为 arXiv:2606.13473v1 [cs.LG]) https://doi.org/10.48550/arXiv.2606.13473 arXiv 发布的 DOI 通过 DataCite(待注册) 提交历史 来自:陈嘉诚 [查看邮箱] [v1] 2026年6月11日 星期四 15:27:06 UTC (2,912 KB)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡