鸟类-1.0：自我改进的开源代理编码模型

阿罗哈！🌺 鸟类-1.0 是一个自我改进的开源代理编码模型。亮点：最先进的编码代理：提供 9B-密集型、31B-密集型、35B-MoE 和 397B-MoE（在 Gemma 4 和 Qwen 3.5 的基础上进行后训练），在 Terminal-Bench 2.1、SWE-Bench、NL2Repo 和 OpenClaw 等编码基准测试中，获得与同类大小的开源模型中的最先进性能。自我改进训练框架：鸟类-1.0 使用强化学习学习生成不仅是解决方案的实施，还包括驱动这些实施的支架。通过联合优化支架和生成的解决方案，模型发现了更好的搜索轨迹并生成了更高质量的解决方案。许可：MIT许可，全球可访问，且没有区域限制。基准测试：每个模型与其适当大小的基线进行评估。所有三个模型使用相同的工具和解码设置（见表格下方的说明）。鸟类-1.0-9B 鸟类-1.0-9B Qwen3.5-9B Qwen3.5-35B Gemma4-12B Gemma4-31B 代理编码 Terminal-Bench 2.1（终点-2） 43.1 21.3 41.4 21 42.1 Terminal-Bench 2.1（Claude Code） 40.6 18.9 38.9 - - SWE-bench 验证 69.4 53.2 70 44.2 52 SWE-bench Pro 42.9 31.3 44.6 27.6 35.7 SWE-bench 多语言 52 39.7 60.3 32.5 51.7 NL2Repo 27.2 16.2 20.5 10.3 15.5 Claw-eval 平均 63.1 53.2 65.4 32.5 48.5 SWE Atlas - 问答 17.9 9.2 13.2 - - SWE Atlas - RF 16.6 4.3 10.2 - - SWE Atlas - TW 15.3 4.4 9.8 - - 鸟类-1.0-35B 鸟类-1.0-35B Qwen3.5-35B Qwen3.6-35B Gemma4-31B Qwen3.5-397B 代理编码 Terminal-Bench 2.1（终点-2） 64.2 41.4 52.5 42.1 53.5 Terminal-Bench 2.1（Claude Code） 62.8 38.9 49.2 - 48.6 SWE-bench 验证 75.6 70 73.4 52 76.4 SWE-bench Pro 50.4 44.6 49.5 35.7 51.6 SWE-bench 多语言 69.3 60.3 67.2 51.7 69.3 NL2Repo 34.6 20.5 29.4 15.5 36.8 Claw-eval 平均 69.8 65.4 68.7 48.5 70.7 SWE Atlas - 问答 37.1 13.2 15.5 - 20.4 SWE Atlas - RF 29.7 10.2 11.4 - 18.4 SWE Atlas - TW 27.8 9.8 13.3 - 18.5 鸟类-1.0-397B 鸟类-1.0-397B Qwen3.5-397B Qwen3.7-Max GLM-5.2-744B Minimax-M3-428B DeepSeek-V4-Pro-1.6T Claude Opus 4.7 Claude Opus 4.8 代理编码 Terminal-Bench 2.1（终点-2） 77.5 53.5 73.5 81.0 64 64 70.3 85 Terminal-Bench 2.1（Claude Code） 78.2 48.6 69.8 82.7 - 66.5 69.7 78.9 SWE-bench 验证 82.4 76.4 80.4 - - 80.6 80.8 87.6 SWE-bench Pro 62.2 51.6 60.6 62.1 59 55.4 64.3 69.2 SWE-bench 多语言 78.9 69.3 78.3 - - 76.2 - - NL2Repo 48.2 36.8 47.2 48.9 42.1 - - 69.7 Claw-eval 平均 77.1 70.7 65.2 - - 75.8 78.2 - SWE Atlas - 问答 41.2 20.4 - - 37.9 27.2 40.3 48.8 SWE Atlas - RF 42.6 18.4 - - - - 48.6 46.7 SWE Atlas - TW 39.1 18.5 - - 30.8 - 38.5 - * Terminal-Bench 2.1（终点-2）：使用 Harbor/Terminus-2 框架进行评估，解析器=json，温度=1.0，top_p=1.0，128K 上下文窗口。每次运行使用 4 小时超时，32 个 CPU 内核和 48GB RAM，平均 5 次运行。我们调整 Qwen 聊天模板以保持训练和推理的一致性，并修改 Harbor 以与 vLLM 的 reasoning_content 键对齐。 * Terminal-Bench 2.1（Claude Code）：使用 Claude Code 2.1.126 进行评估，解析器=json，温度=1.0，top_p=1.0，max_new_tokens=131072，平均 5 次运行（Qwen 聊天模板同样修改）。 * SWE-bench 验证 / Pro / 多语言：OpenHands 工具，温度=1.0，top_p=0.95，256K 上下文窗口。 * SWE Atlas 问答 / RF / TW：mini-SWE-agent 工具，温度=1.0，top_p=0.95，128K 上下文窗口，平均 5 次运行。 * NL2Repo：温度=1.0，top_p=1.0，400K 上下文，48K 输出，反黑客过滤器。 * ClawEval：基于真实用户任务分布的代理编码基准；温度=0.6，256K 上下文。快速入门注意：鸟类-1.0 是一个推理模型：默认情况下，助手对话框以 <think> … </think> 块开头，随后是最终答案。以下提供的服务食谱启用推理解析器，以便将思维链返回在单独的 reasoning_content 字段中，并启用工具调用解析器，使模型的 <tool_call> 块显示为 OpenAI 风格的 tool_calls。使用鸟类-1.0 需要最近的运行时：Transformers ≥ 5.8.1 vLLM ≥ 0.19.1 SGLang ≥ 0.5.9 推荐的采样参数：温度=0.6，top_p=0.95，top_k=20（使用温度=1.0 以重现报告的基准设置）。服务鸟类-1.0 鸟类-1.0 作为一个稠密的 9B 模型加上两个专家混合模型（35B，397B）发布。所有检查点都暴露相同的 OpenAI 兼容接口，并支持 256K（262,144个标记）上下文窗口；密集的 9B 适合单个 80GB GPU，而 MoE 检查点则在具有张量并行性的多 GPU 节点上进行分片。每个大小都发布为多个精度/格式变体：检查点架构格式最佳用途鸟类-1.0-9B 密集型（~9B） bf16 单 GPU 服务与微调鸟类-1.0-9B-GGUF 密集型（~9B） GGUF（量化）通过 llama.cpp / Ollama 进行本地推理鸟类-1.0-35B MoE（35B） bf16 全精度多 GPU 服务鸟类-1.0-35B-FP8 MoE（35B） FP8 ~FP8 能力 GPU 的显存减半鸟类-1.0-35B-GGUF MoE（35B） GGUF（量化）通过 llama.cpp / O