让Claude成为化学家
我们正在与世界一流的合成、计算和分析化学家合作,使Claude在化学方面更具能力。在这篇文章中,我们分享了作为这项努力的一部分的第一项工作,其中Anthropic的化学家David Kamber检查了Claude在化学家最常见的分析输入之一,即NMR光谱上的表现。当化学家处理分子时,他们在白板上的手绘结构、仪器读数、数据库查询字符串和专利与出版物的技术符号之间切换。这些表示都编码了相同的基础化学,但每种表现形式都需要不同类型的流利度。例如,咖啡因的草图可以让化学家发现它与腺苷的相似之处,腺苷是身体的困倦信号,并预测其通过阻止受体保持我们警觉。然而,同样的草图无法帮助化学家区分它与其他几乎相同的分子。理解化学家正在处理哪种分子至关重要。化学是我们摄入的食物和药物到我们所用的乳液、油漆和塑料的一切基础。重新排列同一原子之间的一些键,葡萄糖就变成了果糖,这些分子共享一个公式,但通过完全不同的代谢路径进行处理。将分子翻转为其镜像,安眠药便可能变为致畸物,正如在沙利度胺灾难中发生的那样。化学家的日常工作依赖于在适合特定任务的不同表现形式中正确读取这些信号。在这些表现形式之间进行转换(从图中追踪结构,将仪器读数与拟议产品进行调和,按正确的符号查询数据库)既耗时又难以在规模上保持一致——CAS,最大的化学注册机构,目录中超过2.9亿种已公开的物质,每天大约增加15,000种新物质。人工智能在承担这一研究负担方面处于良好位置,但在化学方面,它仍然主要是理论上的。多年来,机器学习工具已被认为能够为逆合成——从目标分子工作回到更简单的前体以计划如何合成——反应预测和性质估计带来变革,但这些工具所需的数据很难获得——在无结果上稀疏,格式不一致,被订阅期刊的付费墙锁定(以及在无结构的支持信息中)。逆合成就是一个例子——可用的AI工具已经存在多年,但接受程度不均,平均的学术或小实验室化学家仍然不使用它们。即便如此,AI的进步终于在化学领域得到了应用。今天的前沿模型是多模态的,能够进行显式推理。它们可以直接从期刊图形或手绘草图读取化学结构,而不是依赖于预先策划的分子数据库。它们还可以读取方法部分或支持信息中的实验细节,而不是仅仅依赖于已发布的形式。它们还可以逐步展示推理过程,这意味着化学家可以审查输出。这一切并不能消除该领域多年来一直在描述的数据问题,但它改变了尽管存在这些问题仍然可以解决哪些问题。最终,我们的主张是温和的:Claude开始在每日的翻译、回忆和整合工作中对化学家提供有意义的帮助,这些工作补充了他们的判断,我们计划不断扩展其帮助程度。今天,我们发布了加速这项工作的第一份白皮书。它处理化学家最常见的分析输入:NMR光谱。Claude与ChemDraw在NMR预测和结构阐明上的比较完整版可在此处找到。几乎每一种小分子——药物、农药、染料、香料、聚合物、DNA或蛋白质亚单位以及功能性无机或固态材料——之所以存在,都是因为化学家确定了它的结构。鉴于这些分子无法用显微镜观察,化学家必须依赖光谱分析,用光、无线电波或磁场探测分子。给定分子吸收、发射或偏转这种能量的方式为化学家提供了一种模式或光谱,用于阐明其结构。核磁共振光谱(NMR谱)是化学家依赖的经典技术之一,是合成化学中最耗时的步骤之一;对于每一个化合物,化学家都必须手动将光谱中的每个峰与拟议结构中的一个原子进行匹配。为了撰写这份白皮书,我们测试了Claude与当今化学家依赖的专用NMR软件的对比。我们测量了三个Claude模型(Opus 4.7、Opus 4.6、Sonnet 4.6)与ChemDraw和MestReNova在20种来自合成化学预印本的化合物上的表现,这些化合物是在模型的训练截止后发表的,以避免选择偏差。ChemDraw和MestReNova都进行了前向预测,使用绘制的结构来模拟将产生的NMR光谱。除了前向预测外,我们还希望看到是否...
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡