GPT-5.5的幻觉率是MIT授权的GLM-5.2的3倍

2026年6月18日，主要人工智能实验室正在发生变化，他们对无尽的参数数量和训练数据规模越来越持怀疑态度。当克劳德·法布尔5发布仅三天后被美国政府限制时，这一范式的极限在世界舞台上得到了体现，标志着美国因国家安全原因实施的首个人工智能禁令。由于单一的监禁风险，世界上最大的模型之一遭到了禁令。更大即更好在几乎所有情况下都是如此。世界上最大的模型在人工分析智能指数中显然得分最高。然而，Z.ai最近推出的GLM-5.2（753B参数，约40B活跃）仅比GPT-5.5低4分，比法布尔5低9分。Opus 4.8和GPT-5.5是专有的，保守估计在1-2T参数范围。如果一个开放权重（MIT授权）的LLM可以如此接近一个估计为1.5到2倍大小的封闭权重模型，那么很明显，实际的智能已经显著达到平台期。更大不是更好已经证明，当一个模型在大量高度事实性和非理论性数据上训练时，它总是能学会有答案。DeepSeek V4 Pro（1.6T参数，49B活跃，44 AA智能指数得分）在AA-Omniscience基准上拥有无与伦比的94%幻觉得分，这意味着在它无法解决的问题上，它仅表示不知道的时间约为6%，其余时间则自信地幻想出一个答案。GLM-5.2的幻觉率为28%，Opus 4.8为36%，法布尔5为48%，而GPT-5.5则为86%。对于如此庞大而受欢迎的模型来说，这似乎非常糟糕。让我们用一个相对复杂的Python问题来测试它，问题有明显的架构缺陷。 DeepSeek V4 Pro使用了近10倍的推理令牌，但却产生了一个自信地错误的回答。另一方面，GLM-5.2仅用了12秒和约800个推理令牌便识别出单线程任务执行复用I/O是不可能的，而无需让步或利用系统轮询。（对于非技术人员来说，这就像要求送货司机在不停车的情况下同时为3家送货。）尽管GPT-5.5和DeepSeek V4 Pro都是最明显的幻觉领导者，但由于它们的庞大，它们显然没有学会如何说“我不知道”或识别复杂的逻辑和技术谬误。虽然一个多万亿参数的模型在理论上总会优于一个轻量级消费模型（至少在今天是这样），但这些庞大模型的商品化模糊了基准性能与实际现实准确性之间的界线。现代人工智能的三难困境我们应该非常谨慎地盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro在推理循环中浪费了3分26秒的计算（这里的原始推理），只是为了生成一个结构优美、自信的错误解决方案。然而，一个尺寸只有它一半的模型几乎瞬间找到了悖论。即使在我们接近AGI的今天，许多最大的模型仍会积极说服你解决方案是正确的，问题是可以按所述解决的。展望未来，行业无法继续训练越来越大的模型，因为它们的智能不仅达到平台期，往往还会变得更糟。这对消费者同样适用，因为我们不能仅仅根据模型的大小或理论表现来选择模型。人工智能的训练和选择需要围绕现代LLMs的无解三难困境进行设计：原始能力、不确定性校准/幻觉率和计算效率。脚注这两种模型的推理努力均为“高”，温度为1，在OpenRouter上测试，使用以下系统提示： “你以专业的方式回应。你是一个精通Python的高能力编码助手。” GLM-5.2是由Z.ai（FP8精度）提供，而DeepSeek V4 Pro是由百度千帆（FP8精度）提供。