VibeThinker：在推理方面，3B参数模型超过Opus 4.5，采用新颖的SFT+GRPO

查看PDF HTML（实验性）摘要：本技术报告介绍了VibeThinker-3B，这是一款拥有30亿参数的紧凑型高密度模型，旨在研究在严格的小模型范围内可验证推理的边界。基于Spectrum-to-Signal后训练范式，我们通过优化的管道系统地增强了该模型，包括基于课程的监督微调、多领域强化学习和离线自蒸馏。实验评估表明，VibeThinker-3B在极具挑战性的可验证任务上达到了前沿水平的性能。具体来说，它在AIME26上获得了94.3的分数（在声明级测试时间缩放下提高到97.1），在LiveCodeBench v6上的Pass@1为80.2，并在最近未见的LeetCode竞赛中的接受率达到了96.1%。这有效地将其置于一流推理系统的性能区间，匹配或超过了规模大几个数量级的旗舰模型，如DeepSeek V3.2、GLM-5和Gemini 3 Pro。此外，在IFEval上获得的93.4分确认了这种极限推理增强并未妨碍严格的指令可控性。扩展我们之前的15亿工作，这些发现激励了参数压缩-覆盖假说，该假说认为可验证推理可以压缩为紧凑的推理核心，而开放领域知识和通用能力需要在事实、概念和长尾场景上具备广泛的参数覆盖。这一视角表明，紧凑模型不仅仅是高效部署的替代品，而是一条向前沿性能迈进的补充路径，适用于参数密集的能力领域。主题：人工智能（cs.AI）；计算与语言（cs.CL）引用为：arXiv:2606.16140 [cs.AI]（或arXiv:2606.16140v1 [cs.AI]，用于此版本）https://doi.org/10.48550/arXiv.2606.16140 arXiv发布的DOI通过DataCite（待注册）提交历史来自：Sen Xu [查看电子邮件] [v1] 2026年6月15日周一 02:57:19 UTC（552 KB）