MAI思考-1

今天我们介绍MAI思考-1，微软人工智能的推理模型。这是一个中等规模的模型，在其重量级别中属于最强模型之一。在关键软件工程基准测试中，它与领先模型相当，展现出先进的数学推理能力，并在我们的盲人逐对评估中优于Sonnet 4.6。我们从头开始在企业级、干净且商业许可的数据上对其进行训练，没有从第三方模型中进行蒸馏。MAI思考-1是我们更广泛工作的一步，旨在建设人本超级智能：先进的AI能力旨在服务于人类和组织，而不是取代他们。模型在两个方面都很重要：它能做什么，以及它是如何构建的。爬山机除了单一模型，我们很高兴推出我们的爬山机：一个共同设计的管道，旨在让模型开发的每个组件都可爬升，从而使能力随着时间的推移而不断可靠地提高。目标是一种可重复的系统，能够吸收更好的数据、更强的奖励、更强的环境以及更多的计算资源。三个主要支柱指导我们的理念。首先，能力应该是学习的，而不是继承的。虽然继承的智力获取速度更快，但缺乏现实世界使用所需的可控制性：模仿者根本上与其教师的设计选择相联系，难以适应新情况。MAI思考-1在没有从第三方模型蒸馏的情况下进行训练，迫使我们的模型真正学习手头的任务。第二，干净的数据。MAI思考-1是在干净且适当许可的数据上进行训练的，排除了AI生成的内容的预训练。这对质量、来源和控制至关重要。如果我们无法考虑是什么塑造了一个模型，我们就无法完全理解其行为或可靠地改善它。第三，整个栈的自给自足。从与微软本身的加速器共同设计我们的模型，到我们的强化学习框架，我们在内部培训基础设施上集中努力。这是建立我们的爬山机的关键部分，以确保我们可以从头到尾优化和塑造我们的系统，以最好地满足我们的需求。中等规模的模型，具有强大的软件工程性能 MAI思考-1是一个35B-active，约1T总参数的稀疏专家混合模型，推理占用空间比更大型模型小。尽管如此，我们的模型与Claude Opus 4.6在SWE-Bench Pro上针锋相对。这对开发者和企业来说很重要，因为模型大小决定了高级编码辅助可以部署到哪里，使用的频率以及是否可以从特殊任务转移到日常工作流程中。我们在需要的培训环境上进行了大量投资，以实现高效的编码。每个经过验证的环境都是确定性的、可执行的，并由真实测试套件评分。这给模型提供了开发者实际进行的多步骤工作实践：阅读代码、编辑文件、运行测试、观察故障以及从中间错误中恢复。先进的数学推理能力 MAI思考-1在AIME 2025上达到了97.0%，在AIME 2026上达到了94.5%，展示了其重量级别的强大数学和科学推理能力。这里的强大表现让我们有信心我们的培训循环能够真正创造出推理增益——从内而外地爬升——通过我们自己的数据、奖励和评估过程，使这种智能在时间的推移中能够推广到其他领域。