VibeThinker:在推理方面,3B参数模型超过Opus 4.5,采用新颖的SFT+GRPO
查看PDF HTML(实验性)摘要:本技术报告介绍了VibeThinker-3B,这是一款拥有30亿参数的紧凑型高密度模型,旨在研究在严格的小模型范围内可验证推理的边界。基于Spectrum-to-Signal后训练范式,我们通过优化的管道系统地增强了该模型,包括基于课程的监督微调、多领域强化学习和离线自蒸馏。实验评估表明,VibeThinker-3B在极具挑战性的可验证任务上达到了前沿水平的性能。具体来说,它在AIME26上获得了94.3的分数(在声明级测试时间缩放下提高到97.1),在LiveCodeBench v6上的Pass@1为80.2,并在最近未见的LeetCode竞赛中的接受率达到了96.1%。这有效地将其置于一流推理系统的性能区间,匹配或超过了规模大几个数量级的旗舰模型,如DeepSeek V3.2、GLM-5和Gemini 3 Pro。此外,在IFEval上获得的93.4分确认了这种极限推理增强并未妨碍严格的指令可控性。扩展我们之前的15亿工作,这些发现激励了参数压缩-覆盖假说,该假说认为可验证推理可以压缩为紧凑的推理核心,而开放领域知识和通用能力需要在事实、概念和长尾场景上具备广泛的参数覆盖。这一视角表明,紧凑模型不仅仅是高效部署的替代品,而是一条向前沿性能迈进的补充路径,适用于参数密集的能力领域。主题:人工智能(cs.AI);计算与语言(cs.CL)引用为:arXiv:2606.16140 [cs.AI](或arXiv:2606.16140v1 [cs.AI],用于此版本)https://doi.org/10.48550/arXiv.2606.16140 arXiv发布的DOI通过DataCite(待注册)提交历史来自:Sen Xu [查看电子邮件] [v1] 2026年6月15日周一 02:57:19 UTC(552 KB)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡