机器人正在抓取开放数据 — 研究人员应该如何回应？

90%的开放获取数据存储库，作为开放获取存储库联邦的一部分，遭遇机器人抓取，图片来源：fdmsd8yea/Getty。在机器人定期挖掘开放获取数据库和科学出版物以训练人工智能工具的情况下，研究人员是否仍应公开发布他们的数据？这是一些研究人员目前正在讨论的问题，在某些情况下，机器人还可以分析和结合数据集，以比人类更快地产生新的结果和论文。一些研究人员认为，自动化科学用于科学“好”的潜力—例如，加快新药靶点的发现—意味着开放数据应该保持开放。但其他人则指出，机器人抓取复杂数据集的证据可能会导致低质量研究和AI糟粕，同时也允许敏感数据的提取，包括患者信息。他们认为需要新的规则和技术系统来限制机器人对数据库的访问。“这是一个相当大的问题，每个人都应该考虑，不论你是支持还是反对AI，”加拿大渥太华卡尔顿大学的心理学家安德里亚·霍华德表示。隐私问题显然，人工智能抓取很常见。开放获取存储库联邦去年6月发布的一项调查发现，超过90%回复的成员组织遭遇机器人抓取，其中大多数组织每周至少会看到一次异常高的机器人活动。通常，这种抓取是为了提供AI模型的训练数据。这些数据也被用来产生完全由人工智能模型生成的新研究成果。“自动化管道耗尽数据集所能回答的研究问题的范围和速度，感觉像是一个巨大的变化，”澳大利亚悉尼麦考瑞大学的定量心理病理学家米里·福布斯表示。“它缩小了在给定数据集中工作的空间。”关于学术自由和开放获取的辩论是健康的上个月，福布斯在社交媒体平台Bluesky上发起了关于开放数据共享的讨论。回应意见不一。“自由分享信息意味着放弃控制，并接受可能会被用于任何目的，包括我不喜欢的目的，”一位用户在Bluesky上回应道。“反正这不是你的数据，”另一位用户发帖表示。其他人则不那么乐观，指出需要更多的保障措施。“作为一个科学共同体，我们需要解决这个问题。我们不能让人们害怕被AI抢走了成果，”一位用户发帖表示。进一步的担忧包括，AI工具并不总是以人与研究者相同的方式引用研究者的数据，而机器人似乎绕过隐私保护，抓取敏感的个人数据。比利时鲁汀大学情境精神病学中心的联合主任奥利维亚·基特利进行的研究涉及经历自杀意念或自残的人员。“参与者可能因再识别而面临风险，敏感数据可能被用于未获得参与者同意的目的，”她表示。一项研究发现，公开可用的大型语言模型可以识别出约四分之一参与过调查人们对AI工具看法的访谈项目的人，这些人的个人信息已被匿名化。