超快速的 YOLO26：统一的实时端到端视觉模型

PDF HTML（实验）摘要：实时视觉需要准确、高效且易于在多种硬件上部署的模型。正因如此，YOLO系列已被广泛使用，但大多数YOLO检测器在推理时仍依赖于非最大抑制，检测头因分布焦点损失而笨重，需要较长的训练周期，并且可能会让最小的物体没有正标签分配。我们提出了超快速的 YOLO26，一个统一的实时视觉模型系列，通过协调的架构和训练进展解决了这些限制。YOLO26采用双头设计，支持本地无NMS的端到端推理，并完全去掉DFL，从而实现轻量级的头部和不受限的回归范围。其训练流程结合了MuSGD，这是一种适应于大型语言模型训练的混合Muon-SGD优化器；渐进损失（Progressive Loss），将监督逐步转向推理时的头部；以及STAL，一种标签分配策略，确保对小物体的正覆盖。除了检测，YOLO26还为实例分割、姿态估计和定向检测引入了特定任务的头部和损失设计，在各个任务和规模上产生了一致的性能提升。这个系列涵盖了五个规模（n/s/m/l/x），在单一流程中支持检测、实例分割、姿态估计、分类和定向检测，并有开放词汇扩展YOLOE-26，支持文本、视觉和无提示推理。在所有规模上，YOLO26在COCO数据集上达到了40.9-57.5 mAP，T4 TensorRT延迟为1.7-11.8毫秒，较之前的实时检测器在准确性-延迟的Pareto前沿上有所进展，而YOLOE-26x在文本提示下在LVIS minival上达到了40.6 AP。代码和模型可在此HTTPS URL获取。评论：31页，8个图形主题：计算机视觉和模式识别（cs.CV）；人工智能（cs.AI）引用为：arXiv:2606.03748 [cs.CV]（或者arXiv:2606.03748v1 [cs.CV]为此版本）https://doi.org/10.48550/arXiv.2606.03748 arXiv发布的DOI通过DataCite（待注册）提交历史：来自：Glenn Jocher [查看电子邮件] [v1] 2026年6月2日星期二 15:01:13 UTC（8589 KB）