MAI-Code-1-Flash

为开发者而建，而非基准测试编码模型在开发者日常使用的环境中性能良好时最为有用。这就是为什么我们以生产工作流为中心构建MAI-Code-1-Flash，而不是仅优化基准测试。该模型直接使用在生产中使用的GitHub Copilot工具进行训练。这使它能够学习如何在代理编码任务中与周围的工具和系统进行互动，使其与其他可用模型相比，特别适合于现实世界的Copilot工作流。在训练过程中，我们评估了在核心软件工程任务、代码库问答、重构和基于真实GitHub Copilot使用情况改编的遥测任务中的检查点。这种训练、评估和生产之间的对齐有助于线下改进转化为真实世界的开发者质量。旨在最大化每个令牌的价值 MAI-Code-1-Flash采用了自适应解决方案长度控制进行训练，这有助于模型根据任务调整其响应的深度。对于较简单的请求，它可以保持简洁，而在问题需要更深入的分析或更广泛的代码更改时则可以花费更多的推理预算。这在实践中意味着开发者更快地看到有用的输出。我们看到MAI-Code-1-Flash以高达60%更少的令牌解决更难的问题。这有助于减少延迟，降低成本，提高每个令牌的回报，使互动工作流程更加顺畅。生产工具中的基准结果为了理解质量和效率，我们对MAI-Code-1-Flash进行了评估，比较了Claude Haiku 4.5在SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Multilingual和Terminal Bench 2上的表现，使用开发者日常编码任务的相同生产工具。我们测量了任务成功率和完成每项任务所需的平均解决方案令牌数量。MAI-Code-1-Flash在所有核心编码基准测试中均优于Claude Haiku 4.5，在所有4个评估中的通过率均较高，包括在多样的现实世界任务的SWE-Bench Pro上领先16个点（51.2%对35.2%）。它不仅更聪明；而且更精简，在SWE-Bench Verified上以高达60%更少的令牌解决更难的问题，证明了更高的准确性和更大的效率不再是取舍。