预测：一个前沿开源LLM将于2026年12月3日发布

开放和封闭前沿模型的人工分析智能指数的交互式图。我在推特上看到过一个版本的上述图，并想深入探索一下。上图展示的是开放权重LLM与封闭源LLM之间的差距。我们通过查看开放权重LLM在基准测试上的表现前沿，然后回顾过去，看看封闭源前沿在那个水平的时间跨度来衡量这个差距。这是衡量开源模型追赶封闭源模型所达到的新能力所需的时间。这个基准是人工分析智能指数 - 他们的主要指数，试图评估模型的整体能力。总体而言，它与人们似乎从模型中感受到的“氛围”有相当好的相关性。你可以看到在2024年夏季，基准上的差距开始缩小，并且从那时起一直在可靠地缩小。如果你绘制一条最佳拟合线并将其延伸到未来，你会发现差距在2026年12月3日缩小到0个月 - 距离撰写时大约6个月。现在可能是卖掉你的养老金，飞往某个偏远岛屿，和谐地度过文明剩下的6个月的好时机。……除非，这可能不是全部的情况。这仅仅是单一的基准测试，并没有提供LLM能力的完整图景。友好的人工分析机构为我们提供了他们对这些模型评估的18个不同基准的访问权限。我已经对所有18个不同的基准进行了重复分析，并在下面的图中进行了总结：人工分析指标中的每月开放前沿滞后的交互式箱线图。对于每个18个数据集，我们都创建了类似的图表。你可以在页面底部看到所有18个。在每个月，我们为每个数据集创建了一个差距的箱型图。然后我们将所有的箱型图按时间绘制在一起。我们还计算了跨数据集的差距平均值，并为此计算了最佳拟合线。那条线几乎完全平坦，整个期间的时间大约在5个月左右。值得注意的是，大量的模型总改进发生在编码基准上。编码指数从落后15个月缩短到只落后一个月或两个月。大多数其他数据集的差距在时间上有适度的增加。所以，也许开源末日不会那么快到来。这个练习确实表明了衡量LLM质量的困难。根据你的测量方式，你可能会预测开源奇点在圣诞节之前发生，或者你会说开源LLM始终落后封闭源5个月，并且差距可能在扩大。基准测试图表人工分析智能指数的交互式前沿图。