‘AI医生’有多优秀——他们会接管医学吗？

目前至少有一项临床试验正在进行，旨在测试‘AI医生’获取患者信息并提出诊断的能力。图片来源：andrei_r/Getty ‘AI在急诊室任务中的表现优于医生’ ‘谷歌AI的床边礼仪比人类医生更好’ 这种吹捧人工智能工具超越医生技能的头条越来越常见。医学界正在酝酿一场AI革命。它将会是什么样子？不过，一种先进的大型语言模型（LLM）在单一任务中击败医生，并不一定意味着AI已经准备好在现实世界中接管医学。Nature与研究AI在医疗保健中应用的研究人员进行了交谈，以了解哪些‘AI医生’迄今为止表现出了最大的潜力——以及这些工具何时可能主导医疗诊断。一些科学家指出，各种AI系统已经处理简单的医疗任务，如记录笔记甚至续方，但他们表示，医生永远无法完全被机器取代。波士顿马萨诸塞州哈佛医学院的居民医生大卫·吴表示：“医学是复杂的，患者并不总是有教科书式的故事可讲。我认为我们尚未证明这些系统能够应对这种复杂局面。” 尽管如此，一些示范让研究人员对医学领域正在酝酿的AI革命感到兴奋。4月发表在《科学》杂志上的一项研究得出结论，称一个先进的LLM在评估前往波士顿一所医院急诊室的患者状况时表现优于医生。当这个名为o1的AI模型（由位于加州旧金山的OpenAI开发）审查医院工作人员在患者就诊期间记录的信息时，它的诊断正确或几乎正确的比例为67%，而参与实验的两位医生的正确比例约为50-55%。由于该研究使用了现实世界的数据，它标志着AI工具的进步，此前这些工具通常在模拟患者场景或精心策划的医疗案例上进行测试，Nature的研究人员表示。但他们也表示，模拟真实急诊室中发生的事情仍然任重道远。例如，该研究中的AI模型和医生都没有机会与患者互动。另一个研究在3月2日发布在预印本服务器arXiv上，尚未经过同行评审，但也引起了轰动，它研究了AI系统在与患者交谈以进行诊断时的表现。由位于加州山景城谷歌研究中心的科学家领导的一个团队监测了他们开发的一个名为‘Articulate Medical Intelligence Explorer (AMIE)’的AI系统，该系统通过文本消息与在波士顿一家诊所预约急救的真实患者进行聊天。在就诊人和人类医生之前的五天内，AMIE收集了患者的病史并讨论了可能的诊断。然后，AMIE根据这些交谈生成了一份可能的诊断清单。在75%的病例中，正确的诊断位于聊天机器人的前三个建议中，而在56%的病例中，它是最优建议。该系统的表现与患者最终就诊的实际医生相似——尽管人类临床医生提出的治疗方案在实用性和成本效益方面远超AMIE。准备面对现实吗？这两项研究显示了医疗AI在过去三年中的发展程度，加州大学旧金山分校的医生罗伯特·瓦赫特（Robert Wachter）表示，他是一本关于AI如何转变医疗保健的书的作者。他解释说，在这段时间内，LLMs从在简单任务上（如通过多项选择医学考试）获得成功，发展到在提供必要信息时，在复杂案例中匹配医生的诊断。“这真令人兴奋。”他表示，廉价的AI聊天机器人正在将缺乏医疗服务的地方的医疗诊断进行变革。