返回

文章详情

你的论文真的很糟糕吗?

Hacker News2026年6月28日 15:32

作者:A. Sina Booeshaghi · 2026年6月27日 Oded Rechavi在QED Science认为,如果你的论文没有在他们的QED评分中排名前1%,那么它“就很糟糕”。但这个QED评分是什么,它的目的是什么?它真的能衡量科学质量吗?如果一篇论文没有在前1%,真的就糟糕吗?这些问题很重要,因为科学家们在面对越来越多的新工作,这些工作在预印本服务器上发布并在期刊上发表时,常常感到不堪重负。因此,用于筛选论文的传统质量信号,比如期刊、会议地点和机构,变得越来越不可靠。人工智能进一步加剧了这个问题,使得以规模化生产合理的科学写作变得简单。论文更长,图形更密集,论文的存在不再足够证明它代表了实质性的科学工作。对此,像QED Science这样的公司正在构建AI工具,帮助科学家识别高质量的工作。QED使用大型语言模型(LLMs)来审查科学论文并提供AI反馈。许多科学家报告说,反馈很有用,常常与人类同行评审期间收到的评论类似。QED最近发布了一份白皮书,更进一步,描述了“QED评分”,这是一个旨在衡量论文质量的单一数字。QED评分是通过提示一组LLMs对一篇论文进行“原创性”和“有效性”的审查来生成的。结果评估被结合成一个单一得分,即QED评分。在他们的白皮书中,作者声称QED评分是“比期刊排名更准确、更快速和更少偏见的论文质量评估”。作者提出了三项验证研究,所有研究均比较了QED评分与SCImago期刊排名(SJR),它是基于引用数据的期刊级别指标。第一项研究将QED与SJR进行比较,使用一组专家分配的标签(“有限”、“满意”和“强”)作为对照。第二项将2879篇bioRxiv预印本的QED评分与这些论文最终发表的期刊的SJR进行了比较。第三项研究请专家在QED和SJR分歧最强的论文对中进行选择。在这篇评论中,我评估了支持QED评分作为科学质量测量的证据。虽然QED显然提供了比传统同行评审更快的审查,但我发现所提供的证据并不支持作者关于QED评分是更准确或更少偏见的科学质量测量的主张。案例研究1在方法学上不透明,未能有效展示QED评分衡量质量的能力。在案例研究1中,作者获得了975篇已发表论文的策划数据集,这些论文被一组身份未公开的专家评审标记为“有限”、“满意”或“强”。每篇论文基于有效性和原创性获得标签,这与生成QED评分所使用的标准相同。然后,作者询问QED或SJR评分哪个更好地预测这些标签。QED在区分“有限”和“满意+强”论文方面的AUC为0.863,而SJR为0.804;在区分“强”和“满意+有限”论文方面,QED为0.782,SJR为0.774。这些值在没有基础数据和方法论的情况下无法有意义地解释。论文未报告标签的分布,参与生成基准标签的专家评审是否对期刊、作者或机构身份保持盲目状态,也未提供任何数据或代码来重现分析。作者同样没有保证这些论文不在用于评估它们的LLMs的训练数据中。因此,案例研究1并未证实QED评分准确衡量科学质量的能力。案例研究2提供了不一致的证据,表明QED评分可能衡量质量。第二项案例研究将2879篇bioRxiv预印本的QED评分与这些预印本最终发表期刊的SJR评分进行了比较。在所有领域中,作者报告Spearman相关系数为0.63。然而,在个别领域中,相关系数的范围从0.78(遗传学)到0.39(系统生物学)。作者将整体一致性描述为“相当大”,但通过论证SJR评分是质量的噪声代理来解释某些领域较弱的一致性。这种论证在内部不一致。如果SJR评分是科学质量的合理代理,那么各个领域间的一致性较弱表明QED评分是质量的弱代理。如果SJR评分是科学质量的噪声代理,那么与SJR评分的一致性不能用来验证QED评分。无论哪种情况,作者自己承认,这项分析并未确立QED评分作为准确质量测量的能力。案例研究3包含多个未控制和未解释的变异来源,可能会对QED评分的验证产生偏见。第三项研究请15位领域专家共同...

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡