你的论文真的很糟糕吗？

作者：A. Sina Booeshaghi · 2026年6月27日 Oded Rechavi在QED Science认为，如果你的论文没有在他们的QED评分中排名前1%，那么它“就很糟糕”。但这个QED评分是什么，它的目的是什么？它真的能衡量科学质量吗？如果一篇论文没有在前1%，真的就糟糕吗？这些问题很重要，因为科学家们在面对越来越多的新工作，这些工作在预印本服务器上发布并在期刊上发表时，常常感到不堪重负。因此，用于筛选论文的传统质量信号，比如期刊、会议地点和机构，变得越来越不可靠。人工智能进一步加剧了这个问题，使得以规模化生产合理的科学写作变得简单。论文更长，图形更密集，论文的存在不再足够证明它代表了实质性的科学工作。对此，像QED Science这样的公司正在构建AI工具，帮助科学家识别高质量的工作。QED使用大型语言模型（LLMs）来审查科学论文并提供AI反馈。许多科学家报告说，反馈很有用，常常与人类同行评审期间收到的评论类似。QED最近发布了一份白皮书，更进一步，描述了“QED评分”，这是一个旨在衡量论文质量的单一数字。QED评分是通过提示一组LLMs对一篇论文进行“原创性”和“有效性”的审查来生成的。结果评估被结合成一个单一得分，即QED评分。在他们的白皮书中，作者声称QED评分是“比期刊排名更准确、更快速和更少偏见的论文质量评估”。作者提出了三项验证研究，所有研究均比较了QED评分与SCImago期刊排名（SJR），它是基于引用数据的期刊级别指标。第一项研究将QED与SJR进行比较，使用一组专家分配的标签（“有限”、“满意”和“强”）作为对照。第二项将2879篇bioRxiv预印本的QED评分与这些论文最终发表的期刊的SJR进行了比较。第三项研究请专家在QED和SJR分歧最强的论文对中进行选择。在这篇评论中，我评估了支持QED评分作为科学质量测量的证据。虽然QED显然提供了比传统同行评审更快的审查，但我发现所提供的证据并不支持作者关于QED评分是更准确或更少偏见的科学质量测量的主张。案例研究1在方法学上不透明，未能有效展示QED评分衡量质量的能力。在案例研究1中，作者获得了975篇已发表论文的策划数据集，这些论文被一组身份未公开的专家评审标记为“有限”、“满意”或“强”。每篇论文基于有效性和原创性获得标签，这与生成QED评分所使用的标准相同。然后，作者询问QED或SJR评分哪个更好地预测这些标签。QED在区分“有限”和“满意+强”论文方面的AUC为0.863，而SJR为0.804；在区分“强”和“满意+有限”论文方面，QED为0.782，SJR为0.774。这些值在没有基础数据和方法论的情况下无法有意义地解释。论文未报告标签的分布，参与生成基准标签的专家评审是否对期刊、作者或机构身份保持盲目状态，也未提供任何数据或代码来重现分析。作者同样没有保证这些论文不在用于评估它们的LLMs的训练数据中。因此，案例研究1并未证实QED评分准确衡量科学质量的能力。案例研究2提供了不一致的证据，表明QED评分可能衡量质量。第二项案例研究将2879篇bioRxiv预印本的QED评分与这些预印本最终发表期刊的SJR评分进行了比较。在所有领域中，作者报告Spearman相关系数为0.63。然而，在个别领域中，相关系数的范围从0.78（遗传学）到0.39（系统生物学）。作者将整体一致性描述为“相当大”，但通过论证SJR评分是质量的噪声代理来解释某些领域较弱的一致性。这种论证在内部不一致。如果SJR评分是科学质量的合理代理，那么各个领域间的一致性较弱表明QED评分是质量的弱代理。如果SJR评分是科学质量的噪声代理，那么与SJR评分的一致性不能用来验证QED评分。无论哪种情况，作者自己承认，这项分析并未确立QED评分作为准确质量测量的能力。案例研究3包含多个未控制和未解释的变异来源，可能会对QED评分的验证产生偏见。第三项研究请15位领域专家共同...