自然蛋白质折叠的无理冗余性

阿尔达·戈雷奇 · 2026年5月20日在过去的几年中，深度神经网络使生成语言建模变得显著更强大，产生了大型语言模型。类似的飞跃发生在图像和视频等连续模式上。最近，类似的技术成功应用于生物分子的生成建模。像DeepMind的AlphaFold3这样的模型大大简化了生物分子相互作用的预测，包括药物-蛋白质和抗体-蛋白质复合物。不久之后，人们发现如何重新利用这些能力来设计类似药物的分子。Chai-2、Latent-X2和Nabla都报告了可开发的抗体或生物制剂设计。在不久的将来，我们可能会看到大多数抗体进入临床，而这些抗体在很大程度上是通过基于深度学习的生成模型设计的，可能具有优越的药物特性，并针对那些抵抗湿实验室方法的受体。你将如何改进这些系统？我们绝对希望能够有更好的生物分子建模，以便将更好的药物投入临床。提高深度学习系统的配方在高层次上一直相对简单：你扩展模型、扩展计算和扩展数据。显然，大型语言模型通过大力扩展正在改善。AlphaFold3也是一个成功扩展模型和数据的重大努力；它在广泛的已知生物分子复合物集合上训练，包括实验结构和蛋白质-配体复合物，以及由基因组学和宏基因组学（例如MGnify）产生的庞大序列数据库。在内部，DeepMind一段时间内将该项目称为“全PDB”，指代在蛋白质数据银行中表示的所有相互作用。AlphaFold3扩展配方中的关键步骤是将序列规模转化为结构规模：利用结构预测将大型蛋白质序列数据库转换为预测的3D结构。基因组学和宏基因组学为我们提供了数十亿个蛋白质序列，其中许多是从未在实验室中培养的生物体收集的环境DNA推测得来的。然而，对于训练基于结构的设计模型，有用的对象通常是3D结构。结构预测模型让我们能够将一些序列规模转换为结构数据：获取数百万个自然序列，预测它们采用的折叠，并将这些预测的结构作为下一代生物分子模型的训练实例。在Ligo，我们关注这个配方，因为我们训练生成模型以设计酶。当我们尝试通过折叠更多自然序列来扩展我们的结构训练数据时，我们遇到了一个问题：自然蛋白质序列是庞大的，但其折叠的冗余性远比序列数量所暗示的要高。此帖讨论了这种不匹配，并探讨了为何仅仅折叠更多自然序列可能无法带来我们所希望的新结构多样性。我们将描述聚类已知蛋白质宇宙的数据工程技巧，以及我们的结果对如何看待酶设计问题的启示。现代生物分子模型依赖于序列规模现代结构预测模型严重依赖于多序列比对。多序列比对，或MSA，将来自不同生物体的相关蛋白质版本排成一列。当比对中的两个位置倾向于一起变化时，协同进化意味着这两个位置在相关蛋白质中以协调的方式变化。例如，如果一个位置通常带有负电荷，并与一个带有正电荷的位置相接触，进化可能会同时反转这两个位置，同时避免那些会相互排斥的对。这可能是一个线索，表明相应的残基在3D空间中相互接近或通过功能联系在一起。我的AlphaFold2心智模型是，它利用这种协同进化信号来约束蛋白质的粗略几何形状，然后学习如何填充剩余的结构。AlphaFold3似乎做得更广泛。它的抗体-抗原表现特别有趣，因为没有MSA可以提取线索。抗体及其靶标没有共同的进化历史。为了在这方面做得好，模型必须了解蛋白质表面本身：哪些形状、化学性质和局部几何形状可能相互兼容。这是一种与单个蛋白质家族内的残基协同进化不同类型的信号。这就是为什么MGnify规模的数据可能重要的原因。宏基因组序列资源使模型暴露于大量自然变体，其中许多来自我们从未培养过的生物体。经验证据表明，使用MGnify规模的蛋白质蒸馏训练的模型似乎在抗体-抗原预测中最为明显地分离，其中直接的协同进化无法解释相互作用信号（补充信息）。这种对序列空间的增加覆盖看起来很有价值。问题是，这是否也伴随有相应的蛋白质折叠多样性。序列多样性并不是折叠多样性