返回

文章详情

Kimi K2.7-Code:具有更好令牌效率的开源编码模型

Hacker News2026年6月12日 10:42

1. 模型介绍 Kimi K2.7 Code 是一个专注于编码的智能模型,建立在 Kimi K2.6 的基础上。在真实世界的长时程编码任务上进行了 substantial 改进,增强了复杂软件工程工作流程中的端到端任务完成能力,同时提高了令牌效率,与 Kimi K2.6 相比,思考令牌的使用量减少了大约 30%。 2. 模型总结 体系结构 专家混合 (Mixture-of-Experts, MoE) 总参数 1T 激活参数 32B 层数(包括密集层) 61 个密集层 1 注意力隐藏维度 7168 MoE 每个专家的隐藏维度 2048 注意力头数量 64 专家数量 384 每个令牌所选专家 8 共享专家数量 1 词汇量 160K 上下文长度 256K 注意力机制 MLA 激活函数 SwiGLU 视觉编码器 MoonViT 视觉编码器参数 400M 3. 评估结果 基准 Kimi K2.6 Kimi K2.7 Code GPT-5.5 Claude Opus 4.8 编码 Kimi Code Bench v2 50.9 62.0 69.0 67.4 程序基准 48.3 53.6 69.1 63.8 MLS Bench Lite 26.7 35.1 35.5 42.8 智能 Kimi Claw 24/7 基准 42.9 46.9 52.8 50.4 MCP Atlas 69.4 76.0 79.4 81.3 MCP Mark Verified 72.8 81.1 92.9 76.4 脚注 一般测试详情 除非另有说明,Kimi K2.7 Code 和 K2.6 是通过 Kimi Code CLI 在思考模式下进行测试的,温度 = 1.0,top-p = 0.95,上下文长度为 262,144 个令牌;GPT-5.5 在 Codex 中以 xhigh 模式运行,Opus 4.8 在 Claude Code 中以 xhigh 模式运行。除了这些差异外,所有基准是在相同条件下评估的。 编码基准 Kimi Code Bench V2 是我们内部基准, 旨在评估编码代理的真实性能。它包含了 10 多种主流编程语言的多样化软件工程任务以及涵盖内部工程用例、生产事故和真实世界开源项目的完整生产技术栈,重点在后台服务、基础设施、性能工程、系统编程、安全性、前端开发和 ML/数据工程上。 程序基准通过要求编码生成代理仅根据编译后的二进制文件及其文档重现程序的行为来评估它们。它涵盖 200 个任务,从小型 CLI 工具到大型系统如 FFmpeg 和 SQLite。提交将根据超过 248,000 个模糊生成的行为测试进行评判。在每项任务中,代理将获得一个可执行文件及其文档,但没有源代码、反编译或互联网访问。它必须选择自己的实现语言, 从头构建完整程序,并通过行为测试套件将其输出与原始二进制文件进行比较。 MLS-Bench 评估 AI 系统是否能创造通用和可扩展的 ML 方法。 MLS-Bench-Lite 是 MLS-Bench 的官方 30 个任务子集,涵盖 LLM 预训练和后训练、机器人、世界模型、计算机视觉、强化学习、优化、ML 系统、科学 AI 等。代理有 5 小时的时间进行探索,然后提交解决方案。 Opus 4.8 以 Claude Code 中的最大努力设置进行评估。 智能基准 Kimi Claw 24/7 Bench 是我们内部基准,用于评估在持久的、跨多个工作日的 coworking 任务中的长期代理表现。它涵盖了 17 个专业场景,共 610 个评估点,涉及软件工程、ML 研究、招聘、交易、市场营销等领域。所有任务均通过 OpenClaw 工具执行。最终得分是所有评估点的平均通过率,并在 3 次运行中求平均。 MCP-Atlas 通过可扩展的 MCP 评估 LLM 在真实工具使用任务上的表现。我们遵循官方 MCP-Atlas 评估配置,工具调用预算为 100,步骤的最大令牌数为 32k。最终结果在 3 次运行中求平均。 MCPMark-Verified 是 MCPMark 的人工验证版,是一个在五个真实服务器环境(Notion、GitHub、文件系统、Postgres 和 Playwright)中评估 MCP 工具使用的基准。每个任务都经过我们的团队和基准官方重新检查,并将很快开源。我们遵循官方 MCPMark 评估配置,工具调用预算为 100 步,步骤的最大令牌数为 32k。最终结果在 3 次运行中求平均。 4. 本地 INT4 量化 Kimi-K2.7-Code 采用与 Kimi-K2-Thinking 相同的本地 int4 量化方法。 5. 部署 您可以在 https://platform.moonshot.ai 访问 Kimi-K2.7-Code 的 API,我们为您提供兼容 OpenAI/Anthropic 的 API。目前,建议在以下推理引擎上运行 Kimi-K2.7-Code:vLLM SGLang KTransformers Kimi-K2.7-Code 与 Kimi-K2.5/Kimi-K2.6 具有相同的架构,部署方法可以直接重用。 transformers 的版本要求为 >=4.57.1,<5.0.0。可以在模型部署指南中找到部署示例。 6. 模型使用 下面的用法演示展示了如何调用我们的官方 API。请注意,Kimi-K2.7-Code 强制思考。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡