超快速的 YOLO26:统一的实时端到端视觉模型
PDF HTML(实验)摘要:实时视觉需要准确、高效且易于在多种硬件上部署的模型。正因如此,YOLO系列已被广泛使用,但大多数YOLO检测器在推理时仍依赖于非最大抑制,检测头因分布焦点损失而笨重,需要较长的训练周期,并且可能会让最小的物体没有正标签分配。我们提出了超快速的 YOLO26,一个统一的实时视觉模型系列,通过协调的架构和训练进展解决了这些限制。YOLO26采用双头设计,支持本地无NMS的端到端推理,并完全去掉DFL,从而实现轻量级的头部和不受限的回归范围。其训练流程结合了MuSGD,这是一种适应于大型语言模型训练的混合Muon-SGD优化器;渐进损失(Progressive Loss),将监督逐步转向推理时的头部;以及STAL,一种标签分配策略,确保对小物体的正覆盖。除了检测,YOLO26还为实例分割、姿态估计和定向检测引入了特定任务的头部和损失设计,在各个任务和规模上产生了一致的性能提升。这个系列涵盖了五个规模(n/s/m/l/x),在单一流程中支持检测、实例分割、姿态估计、分类和定向检测,并有开放词汇扩展YOLOE-26,支持文本、视觉和无提示推理。在所有规模上,YOLO26在COCO数据集上达到了40.9-57.5 mAP,T4 TensorRT延迟为1.7-11.8毫秒,较之前的实时检测器在准确性-延迟的Pareto前沿上有所进展,而YOLOE-26x在文本提示下在LVIS minival上达到了40.6 AP。代码和模型可在此HTTPS URL获取。评论:31页,8个图形 主题:计算机视觉和模式识别(cs.CV);人工智能(cs.AI)引用为:arXiv:2606.03748 [cs.CV](或者arXiv:2606.03748v1 [cs.CV]为此版本)https://doi.org/10.48550/arXiv.2606.03748 arXiv发布的DOI通过DataCite(待注册) 提交历史:来自:Glenn Jocher [查看电子邮件] [v1] 2026年6月2日星期二 15:01:13 UTC(8589 KB)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡