亚二次方 – 介绍 SubQ 1.1 小型版

日期：2026年6月16日最困难的企业AI问题共享一个共同的形状。它们需要对完整工件（整个代码库、文档集合、合同、财务文件）进行推理。多年来，行业通过构建检索管道、分块策略和代理支架来解决这个问题——这些都是有用的工具，但最终是针对模型架构的上下文限制的变通方案。基本的限制是注意力：计算量随着上下文长度呈二次方增长，使得对大型工件的直接推理成本过高。SubQ 的设计旨在消除这一限制。今天，我们发布了 SubQ 1.1 小型版的模型卡——我们的亚二次方稀疏注意力（SSA）模型的第二次迭代，体积最小。我们正在与选择的设计伙伴部署 SubQ 1.1 小型版，并计划在年底推出从 200万到1200万标记的更广泛的模型阵容。主要特性：在针尖中的干草堆测试中，近乎完美的长上下文检索可达1200万标记，注意力计算减少近1000倍。长上下文优化与一般推理能力的平衡，知识、编码和非编码企业代理基准测试中的强劲表现得以保持。在100万标记时，SubQ 1.1 小型版的计算需求比密集注意力少64.5倍，运行速度比 FlashAttention-2 快56倍。这些结果反映了SSA的效率提升带来的规模优势。基准测试： SubQ 1.1 小型版在五个维度进行了评估，涵盖长上下文检索、上下文长度泛化、知识、编码和长远代理任务。长上下文检索与泛化我们选择了针尖中的干草堆（NIAH）和Nvidia的RULER测试，因为这两个测试共同检验模型能否在大型上下文中找到埋藏的单个事实，以及它是否能够在该上下文中连接点。NIAH是精度测试。它在一个受控深度的长上下文中放置一个可检索的事实，并要求模型准确返回。SubQ 1.1 小型版在100万、200万、600万和1200万标记时几乎完美得分。该模型主要在100万标记时训练，但在其长度的12倍下检索仍保持近乎完美，尽管压缩的注意力仅占关系的0.13%。这种泛化是SSA根据内容相关性而非固定位置模式路由注意力的直接结果。RULER是能力测试。它的13个任务超越了单一事实查找，涵盖多跳变量追踪、频率提取和跨全上下文的聚合，使用真正的推理需求完成工件工作负载。SubQ 1.1 小型版在128K时得分99.12%。多任务检索 RULER (128K): 99.12% 单一事实检索针尖中的干草堆 (1M-12M): 100% 1M, 100% 2M, 98% 6M, 98% 12M 一般知识与推理 SubQ 1.1 小型版在不妥协的情况下将长上下文优化与一般推理能力平衡。GPQA Diamond 的得分为85.4%，位于中层边界模型之下，并远高于小型层。LiveCodeBench 的得分为89.7% pass@4，接近绝对前沿。AutomationBench Finance 的得分为13%，使 SubQ 1.1 小型版接近该基准上最强的模型，超过中层和小型基准。所有模型在此基准上的绝对得分仍然较低。基准测试 SubQ 1.1 小型版 GPT-5.5 Opus 4.8 Sonnet 4.6 GPT-5.4-mini GPT-5.4-nano Haiku 4.5 研究生水平科学 GPQA Diamond · pass@1: 85.4 93.2 92 87.5 87.5 81.7 67.2 代理金融 AutomationBench: 13% 18% 16% 8% 0% n/r 3% 竞争编程 LiveCodeBench v6 · pass@4: 89.7 92 92.2 88.9 78.6 78.2 69.7 n/r = 结果未由模型提供方报告效率： SSA 用学习到的稀疏公式替代 O(n²) 密集注意力传递，且与上下文长度线性扩展。随着上下文长度的增加，SSA相较于密集注意力的优势也在增加。在100万标记时，SubQ的计算需求比密集注意力少64.5倍，且在单一注意力层面上比FlashAttention-2快56倍。实际上，这极大改变了长上下文训练和推理的经济性。关于机制的全面分析及其与FlashAttention、DeepSeek稀疏注意力和循环架构的比较见于技术报告。 SubQ在100万标记上下文中比密集注意力使用少64.5倍的计算，且比FlashAttention-2快56倍。训练：我们从一个现有的开放权重前沿模型开始，用SSA替换密集注意力，并通过分阶段上下文扩展（262K、512K、1M、2M）构建长上下文能力，随后对自然长工件进行了大约一万亿个标记的继续预训练：书籍、文档和库规模代码。我们发现改善长上下文检索的最强杠杆是基于SSA算法效率的长上下文继续预训练。1200万的泛化结果反映了这两个因素：SSA的选择标准与绝对位置无关。