鸟类-1.0:自我改进的开源代理编码模型
阿罗哈!🌺 鸟类-1.0 是一个自我改进的开源代理编码模型。亮点:最先进的编码代理:提供 9B-密集型、31B-密集型、35B-MoE 和 397B-MoE(在 Gemma 4 和 Qwen 3.5 的基础上进行后训练),在 Terminal-Bench 2.1、SWE-Bench、NL2Repo 和 OpenClaw 等编码基准测试中,获得与同类大小的开源模型中的最先进性能。自我改进训练框架:鸟类-1.0 使用强化学习学习生成不仅是解决方案的实施,还包括驱动这些实施的支架。通过联合优化支架和生成的解决方案,模型发现了更好的搜索轨迹并生成了更高质量的解决方案。许可:MIT许可,全球可访问,且没有区域限制。基准测试:每个模型与其适当大小的基线进行评估。所有三个模型使用相同的工具和解码设置(见表格下方的说明)。鸟类-1.0-9B 鸟类-1.0-9B Qwen3.5-9B Qwen3.5-35B Gemma4-12B Gemma4-31B 代理编码 Terminal-Bench 2.1(终点-2) 43.1 21.3 41.4 21 42.1 Terminal-Bench 2.1(Claude Code) 40.6 18.9 38.9 - - SWE-bench 验证 69.4 53.2 70 44.2 52 SWE-bench Pro 42.9 31.3 44.6 27.6 35.7 SWE-bench 多语言 52 39.7 60.3 32.5 51.7 NL2Repo 27.2 16.2 20.5 10.3 15.5 Claw-eval 平均 63.1 53.2 65.4 32.5 48.5 SWE Atlas - 问答 17.9 9.2 13.2 - - SWE Atlas - RF 16.6 4.3 10.2 - - SWE Atlas - TW 15.3 4.4 9.8 - - 鸟类-1.0-35B 鸟类-1.0-35B Qwen3.5-35B Qwen3.6-35B Gemma4-31B Qwen3.5-397B 代理编码 Terminal-Bench 2.1(终点-2) 64.2 41.4 52.5 42.1 53.5 Terminal-Bench 2.1(Claude Code) 62.8 38.9 49.2 - 48.6 SWE-bench 验证 75.6 70 73.4 52 76.4 SWE-bench Pro 50.4 44.6 49.5 35.7 51.6 SWE-bench 多语言 69.3 60.3 67.2 51.7 69.3 NL2Repo 34.6 20.5 29.4 15.5 36.8 Claw-eval 平均 69.8 65.4 68.7 48.5 70.7 SWE Atlas - 问答 37.1 13.2 15.5 - 20.4 SWE Atlas - RF 29.7 10.2 11.4 - 18.4 SWE Atlas - TW 27.8 9.8 13.3 - 18.5 鸟类-1.0-397B 鸟类-1.0-397B Qwen3.5-397B Qwen3.7-Max GLM-5.2-744B Minimax-M3-428B DeepSeek-V4-Pro-1.6T Claude Opus 4.7 Claude Opus 4.8 代理编码 Terminal-Bench 2.1(终点-2) 77.5 53.5 73.5 81.0 64 64 70.3 85 Terminal-Bench 2.1(Claude Code) 78.2 48.6 69.8 82.7 - 66.5 69.7 78.9 SWE-bench 验证 82.4 76.4 80.4 - - 80.6 80.8 87.6 SWE-bench Pro 62.2 51.6 60.6 62.1 59 55.4 64.3 69.2 SWE-bench 多语言 78.9 69.3 78.3 - - 76.2 - - NL2Repo 48.2 36.8 47.2 48.9 42.1 - - 69.7 Claw-eval 平均 77.1 70.7 65.2 - - 75.8 78.2 - SWE Atlas - 问答 41.2 20.4 - - 37.9 27.2 40.3 48.8 SWE Atlas - RF 42.6 18.4 - - - - 48.6 46.7 SWE Atlas - TW 39.1 18.5 - - 30.8 - 38.5 - * Terminal-Bench 2.1(终点-2):使用 Harbor/Terminus-2 框架进行评估,解析器=json,温度=1.0,top_p=1.0,128K 上下文窗口。每次运行使用 4 小时超时,32 个 CPU 内核和 48GB RAM,平均 5 次运行。我们调整 Qwen 聊天模板以保持训练和推理的一致性,并修改 Harbor 以与 vLLM 的 reasoning_content 键对齐。 * Terminal-Bench 2.1(Claude Code):使用 Claude Code 2.1.126 进行评估,解析器=json,温度=1.0,top_p=1.0,max_new_tokens=131072,平均 5 次运行(Qwen 聊天模板同样修改)。 * SWE-bench 验证 / Pro / 多语言:OpenHands 工具,温度=1.0,top_p=0.95,256K 上下文窗口。 * SWE Atlas 问答 / RF / TW:mini-SWE-agent 工具,温度=1.0,top_p=0.95,128K 上下文窗口,平均 5 次运行。 * NL2Repo:温度=1.0,top_p=1.0,400K 上下文,48K 输出,反黑客过滤器。 * ClawEval:基于真实用户任务分布的代理编码基准;温度=0.6,256K 上下文。快速入门 注意:鸟类-1.0 是一个推理模型:默认情况下,助手对话框以 <think> … </think> 块开头,随后是最终答案。以下提供的服务食谱启用推理解析器,以便将思维链返回在单独的 reasoning_content 字段中,并启用工具调用解析器,使模型的 <tool_call> 块显示为 OpenAI 风格的 tool_calls。使用鸟类-1.0 需要最近的运行时:Transformers ≥ 5.8.1 vLLM ≥ 0.19.1 SGLang ≥ 0.5.9 推荐的采样参数:温度=0.6,top_p=0.95,top_k=20(使用温度=1.0 以重现报告的基准设置)。服务鸟类-1.0 鸟类-1.0 作为一个稠密的 9B 模型加上两个专家混合模型(35B,397B)发布。所有检查点都暴露相同的 OpenAI 兼容接口,并支持 256K(262,144个标记)上下文窗口;密集的 9B 适合单个 80GB GPU,而 MoE 检查点则在具有张量并行性的多 GPU 节点上进行分片。每个大小都发布为多个精度/格式变体:检查点 架构 格式 最佳用途 鸟类-1.0-9B 密集型(~9B) bf16 单 GPU 服务与微调 鸟类-1.0-9B-GGUF 密集型(~9B) GGUF(量化) 通过 llama.cpp / Ollama 进行本地推理 鸟类-1.0-35B MoE(35B) bf16 全精度多 GPU 服务 鸟类-1.0-35B-FP8 MoE(35B) FP8 ~FP8 能力 GPU 的显存减半 鸟类-1.0-35B-GGUF MoE(35B) GGUF(量化) 通过 llama.cpp / O
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡