预测:一个前沿开源LLM将于2026年12月3日发布
开放和封闭前沿模型的人工分析智能指数的交互式图。 我在推特上看到过一个版本的上述图,并想深入探索一下。 上图展示的是开放权重LLM与封闭源LLM之间的差距。 我们通过查看开放权重LLM在基准测试上的表现前沿,然后回顾过去,看看封闭源前沿在那个水平的时间跨度来衡量这个差距。 这是衡量开源模型追赶封闭源模型所达到的新能力所需的时间。 这个基准是人工分析智能指数 - 他们的主要指数,试图评估模型的整体能力。 总体而言,它与人们似乎从模型中感受到的“氛围”有相当好的相关性。 你可以看到在2024年夏季,基准上的差距开始缩小,并且从那时起一直在可靠地缩小。 如果你绘制一条最佳拟合线并将其延伸到未来,你会发现差距在2026年12月3日缩小到0个月 - 距离撰写时大约6个月。 现在可能是卖掉你的养老金,飞往某个偏远岛屿,和谐地度过文明剩下的6个月的好时机。……除非,这可能不是全部的情况。 这仅仅是单一的基准测试,并没有提供LLM能力的完整图景。友好的人工分析机构为我们提供了他们对这些模型评估的18个不同基准的访问权限。 我已经对所有18个不同的基准进行了重复分析,并在下面的图中进行了总结:人工分析指标中的每月开放前沿滞后的交互式箱线图。 对于每个18个数据集,我们都创建了类似的图表。 你可以在页面底部看到所有18个。在每个月,我们为每个数据集创建了一个差距的箱型图。 然后我们将所有的箱型图按时间绘制在一起。 我们还计算了跨数据集的差距平均值,并为此计算了最佳拟合线。 那条线几乎完全平坦,整个期间的时间大约在5个月左右。 值得注意的是,大量的模型总改进发生在编码基准上。 编码指数从落后15个月缩短到只落后一个月或两个月。 大多数其他数据集的差距在时间上有适度的增加。 所以,也许开源末日不会那么快到来。 这个练习确实表明了衡量LLM质量的困难。 根据你的测量方式,你可能会预测开源奇点在圣诞节之前发生,或者你会说开源LLM始终落后封闭源5个月,并且差距可能在扩大。 基准测试图表人工分析智能指数的交互式前沿图。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡