鸟类-1.0：用于自主编码的自支撑LLMs

阿罗哈！🌺 今天，我们介绍鸟类-1.0，一个专为自主编码任务而设计的自我提升开源模型系列。鸟类-1.0涵盖了整个范围，从适合边缘设备部署的紧凑型9B密集模型到优化最大性能的397B MoE前沿规模模型，包括9B密集、31B密集、35B MoE和397B MoE等变体。基于预训练的Gemma 4和Qwen 3.5构建，在可比规模的开源模型中，它在编码基准测试上达到最先进的性能。鸟类-1.0背后的关键创新是一个自我提升的训练框架。它不依赖于人工设计的支架来驱动解决方案生成，而是学习生成解决方案的展开和指导这些展开的任务特定支架。通过共同优化支架和获得的解决方案，模型能够发现更好的搜索轨迹并生成更高质量的解决方案。鸟类-1.0在广泛的自主编码基准测试中在可比规模的开源模型中达到了最先进的性能：鸟类-1.0-397B（在Terminal-Bench 2.1上为77.5，在SWE-Bench Verified上为82.4）与Claude Opus 4.7（在TB-2.1上为70.3，在SWE-Bench Verified上为80.8）表现相当，超越了同类规模领先的开源模型，包括MiniMax M3（在TB-2.1上为66.0，在SWE-Bench Verified上为80.5）和DeepSeek-V4-Pro（在TB-2.1上为67.9，在SWE-Bench Verified上为80.6）。鸟类-1.0-9B可以轻松部署在边缘设备上，其性能匹敌或超越许多更大模型，如Gemma 4-31B和Qwen 3.6 35B。在旗舰规模上，鸟类-1.0-397B在Terminal-Bench 2.1上达到77.5，在SWE-Bench Verified上达到82.4，超越Claude Opus 4.7的两个基准测试，并且优于同类规模的领先开源模型，包括Minimax M3和DeepSeek-V4-Pro。鸟类-1.0-35B明显优于相似规模的模型，包括Qwen 3.5-35B、Qwen 3.6-35B和Gemma 31B。尽管只有35B参数，它在Terminal-Bench 2.1上的表现甚至超越Qwen 3.5-397B（64.4 vs. 53.5），在其他多个编码和自主基准测试中表现持平。可边缘部署的鸟类-1.0-9B也交出了相当强劲的结果，在Terminal-Bench 2.1上达到了43.1，在SWE-Bench Verified上达到了69.4。尽管是一个紧凑的9B参数模型，但它的性能与许多更大模型如Gemma 4-31B相匹敌或超越，证明了即使在资源高效的部署中也能实现强大的自主编码能力。自我提升的LLM训练策略鸟类-1.0核心是一个自我提升的训练框架，它共同学习解决任务和构建指导这些解决方案的支架。鸟类-1.0不依赖于在任务类别中共享的固定、人工设计的支架，而是将支架视为可学习的对象，与策略共同进化。每个强化学习步骤分为两个阶段：根据先前使用的任务和支架，模型首先提出一个改进的支架；根据该支架和任务描述，然后生成解决方案的展开。来自展开的奖励传播到两个阶段，因此模型不仅优化产生更好的答案，也优化构建产生答案的 orchestrate。通过训练不断重复，这产生了一个反馈循环，其中支架不断突变和选择，朝向那些诱导更高奖励轨迹的支架进化，允许每个任务类别的策略自动出现，并推动持续的能力提升，没有人工设计的支架。解决自我提升的奖励黑客允许模型自行创建支架自然引入奖励黑客问题。自生成的支架可以学习满足验证者而不执行任务：读取可见的测试文件并硬编码期望的产物，例如触及被检查的文件或写入文字预期输出，或复制环境中存在的oracle解决方案。我们通过三层防御来抵御这一问题。首先，我们固定外部信任边界：环境、工具表面和测试隔离是不变的，超出模型的接触，因此模型只进化内部政策支架：它的记忆、错误处理和调度逻辑。其次，确定性监视器在可以准确指定的级别上强制执行该边界，标记任何尝试读取受限路径、修改验证脚本或调用超出授权工具表面的操作，并给予此类轨迹零奖励，排除在优势计算之外。第三，因为意图级的游戏可以完全发生在允许的工具表面内，一个冻结的LLM评估者在验证者之上起到否决的作用，而不是主要的奖励。异步RL训练为了应对长期展开的离线策略问题，鸟类-1.0采用了管道强化学习策略。