为什么评估初创企业失败 (2025)

2025年5月8日为什么独立的评估初创企业这么少？每当出现新的人工智能趋势，如代理、语音，或语音代理时，开发人员都会面临大量选择，其中一些人坚信，识别最佳模型并将该知识出售给其他开发人员（即，出售评估）有商业机会。我在每一波生成性人工智能浪潮中都看到过这种现象，甚至在我们还没有称其为生成性人工智能之前。我没有看到任何成功的案例，除了安全评估的细分市场。我有几个理论来解释为什么独立的评估初创企业会失败。首先，能够设计和运行良好评估的人可以在模型开发的其他部分赚更多的钱，拥有更多的影响力，因此人才会流失。第二，评估初创企业很难找到客户，因为客户必须是想通过API构建的技术开发人员，但又不够技术，无法自己进行评估。第三，评估初创企业面临巨大的优化压力，这使他们的评估毫无用处，这种压力来自于常规的爬坡和模型开发者的压力。评估人才更好地用于其他地方优秀的评估人才转向技术栈的其他部分，因为进行良好评估所需的技能对于后训练和应用开发也很有用，这些领域能捕获更多的价值，即赚更多的钱，并对模型开发产生更直接的影响，即更有声望和更有趣。例如，构建良好的评估需要收集高质量的数据，无论是通过操作人类反馈管道还是通过合成数据。收集高质量数据是后训练的一个主要瓶颈。评估中的数据量总是比后训练收集的数据量少几个数量级，因此从收集数据为评估产生的价值与收集数据为后训练所产生的价值相比是有上限的，假设每个数据点的价值相等。此外，良好的后训练的财务回报潜力非常高，可能高达几亿美元或数十亿美元，而评估的财务回报则被最大评估合同的规模所限制，远不及。这种动态对于聪明的年轻研究人员来说显而易见，他们恰好理解机会成本的概念。一个说明性的例子是三位研究人员辞去了Epoch AI的工作，评估代理，转而创办一家初创企业，构建代理的后训练工具 [0]。评估客户不够即使一个评估初创企业留住了人才，它仍然很难找到客户，因为“基于模型API构建”和“无法评估模型”这两个圈子的维恩图交集几乎没有区域。当你查看由市场研究公司Gartner提供的供应商比较图表时，X轴是虚构的，Y轴则是虚幻的；简而言之，这些图表是为幼儿解读的，而他们的技术水平与这些图表的决定的企业高管相当。如果你认为我在 exaggerating，请你去谷歌搜索“Gartner魔力象限AI”，然后把他们举报到图表犯罪部门。这个同样的泥潭也困扰着人工智能评估初创企业。任何后训练模型的客户肯定会自己构建评估。一个理解AIME 2024上10%改进的意义和隐含的开发者，如果不使用工具，通过N次最佳计算，是不会远离自己去运行这些评估的。如果他们不知道GPT 4o和GPT 4.1之间的区别，他们就是那种想要解决方案而不是特征，更不用说ELO的解释的客户了。Gartner可以为那些决定与云服务提供商签署大合同的高管简化，但评估初创企业似乎总是想要向开发人员售卖。因此，我对评估初创企业的市场规模持怀疑态度，即使人工智能服务的需求在增长。大型实验室的Goodhart评估一个能克服这两个障碍的评估初创企业现在必须面对大型实验室，这些实验室非常有动力提升公众评估，并施加压力和使用技巧来改善他们的数值。一旦基准成为目标，模型可以快速改进，无论是通过像增加更多多样化数据这样的良性调整，还是通过在测试数据上进行训练的极端行为，比如Meta在Llama 1上所做的 [1]，以及传闻在Llama 4上所做的 [2]。因此，评估初创企业必须谨慎对待与大型实验室之间可能的对抗关系，这些实验室不想失去自己的客户，并且会利用其不公平的优势。大型实验室还使用其他一些技巧，包括要求员工投票支持他们自己的模型在公共排行榜上，挖走评估初创企业的员工，以更好的结果为换取免费计算资源，请求关于模型性能的私人见解；这种花招的清单很长。一个原则明确的团队可以抵制这些阴谋，但怀疑的阴霾难以驱散。