FAIR 数据如何帮助建立科学信任

如果你建立了一个数据集，但没有人能找到它，那它还有用吗？它的价值并没有被充分发挥。在科学信任受到党派行为者和偏见病原体冲击的情况下，科学信息的可获取性、透明度和信任度必须得到改善。人们是否停止信任科学？数据给出了一个令人惊讶的故事。引入 FAIR 数据原则。2014年，科学家意识到数据管理和 stewardship 可以借助一套共享指南受益，数十位国际研究人员聚集在一起草拟新的建议。由此产生的原则确立了数据应当是可查找、可获取、可互操作和可重用（FAIR）的概念，并于十年前发布。最初的出版物有约16,000次引用，世界各地的政府、资助者和出版商现在要求以符合 FAIR 的方式托管和共享数据。然而，十年过后，即便是创始人也承认 FAIR 原则是一个不完美的工具。荷兰莱顿大学的分子生物学家巴伦德·门斯（Barend Mons）表示，FAIR 一直被视为一组一般原则，“因此，按定义，它不能解决每个应用的具体情况”。幸运的是，其他研究人员已经将这一框架扩展到涵盖更广泛的数据生态系统，包括驱动现代研究的算法、工具和工作流。实施每个学科的 FAIR 在其核心，FAIR 旨在确保数据以促进透明度和可重复性的方式生成、分析、存储和共享。“数据越容易被除创作者以外的人理解，我们就越能确定数据集本身及其声称的创作者的可信度，”门斯说。理想的数据集应该有适当的文档，方便计算机和人使用。它还应该易于与其他数据集整合。为此，科学家必须在收集数据之前设计工作流，并创建和维护详细的元数据文件——这是一个常常被忽视的组成部分，包含关于数据集的背景信息，例如其创建的时间和地点。该倡议还优先考虑数据管理计划，包括选择合适的许可证和持久标识符——赋予不同资源的独特标签——以便任何在项目中生成的信息都能在研究结束后很长时间被查找和使用。关于科学信任的复杂真相“这需要考虑很多，我能理解为什么一些科学家觉得这可能非常令人畏惧，”西班牙巴塞罗那大学的数据完整性研究员阿梅利亚·希门尼斯-桑切斯（Amelia Jiménez-Sánchez）说。但她表示，FAIR 就像烹饪：一旦你掌握了正确的原料——或者熟悉了 FAIR 实践——做一顿饭就变得容易了。“最终，这就成了你工作的一部分。”用户已将这些实践调整到他们的学科。宾夕法尼亚州匹兹堡的卡内基梅隆大学发布了化学、数学、神经科学和心理学的 FAIR 指南。其他倡议则专注于天文学、材料科学、遗传学和单细胞基因组数据。对于没有专门 FAIR 资源的领域，荷兰的研究人员已发布“十条简单规则”，以启动关于 FAIR 实践的对话。意识到自己所在领域没有特定的 FAIR 资源，伊利乌·韦尔塔（Eliu Huerta），一个位于伊利诺伊州莱蒙特阿贡国家实验室的理论物理学家，开始为高能物理学调整 FAIR 原则。如今，韦尔塔是一个名为 FAIR4HEP 的合作项目的一部分，旨在帮助该领域的研究人员改善数据共享实践。2022年，他共同撰写了一项研究，评估来自欧洲粒子物理实验室（CERN）的大型强子对撞机的数据的“FAIR程度”。该研究称，“提供了一套与领域无关的、逐步检查的指导，帮助在使数据集变得 FAIR 的过程中。”这一过程的作者称之为 FAIR 化。来自澳大利亚研究数据公共委员会的基于网络的 FAIR 数据自我评估工具同样提供“如何增强数据的 FAIR 性的实用建议”。超越数据的扩展 FAIR 指南同样适用于软件。例如，FAIR-USE4OS 指南将 FAIR 原则扩展到开源软件项目，FAIR4RS 等倡议则专注于研究软件。“数据就是数据，但围绕它存储、共享和分析信息的整个基础设施系统也需要是公平和可重复的，”来自伦敦自然历史博物馆的宏生态学家娜塔莉·库珀(Natalie Cooper)说。将公众置于科学和政策核心的六种方式去年，库珀编辑了一本关于可重复性的指南。