通过神经迭代选择−扩展进行药物结合蛋白的零样本设计

主要内容小分子结合蛋白的从头设计仍然是一个相当大的挑战，尽管该领域在其他方面取得了快速进展。显著的成功主要依赖于高通量实验选择。少数具有高计算命中率（33%）的案例将配体的功能组近似为氨基酸的组成部分。为了概括结合物设计，神经网络原则上可以直接从训练数据中学习，以预测蛋白质序列和蛋白质-配体共结构。自一致性描述了设计序列的预期结构与其预测结构之间的符合程度。最大化自一致性一直是设计新拓扑和与蛋白质和肽结合物的指导原则。然而，由于编码非氨基酸化学的复杂性，这一原则尚未扩展到小分子结合物的设计。诸如RoseTTAFold-All Atom（RFAA）、Boltz-1/2和AlphaFold3（AF3）等模型可以根据蛋白质序列和配体简化分子输入线条录入系统（SMILES）字符串预测蛋白质-配体共结构。利用这样的模型，自一致性设计不仅具有与预期骨架非常相似的预测结构，而且还具有预测在预定位点结合的配体。这一额外维度应能够更细致地评估设计质量。我们推断，最大化序列-结构-配体的自一致性将导致具有良好成功率的高亲和力小分子结合蛋白的设计。图1：小分子结合蛋白设计的自一致性优化算法。a，四螺旋束和停靠小分子的自一致性原理（以蓝色棒模型显示）。顶部，两个与骨架相对应的自一致性设计，经例如AF2计算。底部，这些自一致性骨架设计中的一个与配体相一致（预测的停靠配体为品红色），利用例如RFAA进行计算。示意热图显示了NISE轨迹的典型结果，目的是填充左下角。边际分布使用彩条展示蛋白质序列1-3（s1-s3）。b，NISE协议示意图。NISE从初始蛋白质结构（仅骨架坐标）和停靠的配体位置（品红色）开始。NISE过程迭代地应用基于神经网络的序列设计（扩展）和共结构预测。高置信度（高配体pLDDT）自一致性设计作为新的输入（选择）用于序列设计。所描绘的蛋白质和配体按模型置信度（低到高，红色-黄色-绿色-青色-蓝色）上色。c，比较神经和基于能量的迭代选择-扩展（ISE）协议，以生成改进的蛋白质-配体坐标。在这两种情况下，LASErMPNN用于设计序列。对于基于能量的ISE，共结构预测器被Rosetta能量最小化替换，设计基于低配体能量进行选择。经过35轮ISE，所有设计序列的结构通过RFAA进行了预测。配体pLDDT（红色，第三四分位数）和序列负对数似然（NLL；蓝色，第一四分位数）与设计迭代绘制。NISE（而不是基于能量的ISE）同时优化了配体置信度（更高pLDDT）和蛋白序列质量（更低NLL）。数据来自使用输入结构的NISE轨迹，该结构产生了EPIC（图3），并以exatecan作为配体。四分位数是从每次迭代的设计n = 1,500（第一轮n = 500）生成的。d，同步优化沿着两个互惠条件概率分布，P（seq|struct, lig）和P（struct, lig|seq）中的设计，表明NISE在联合概率分布P（seq, struct, lig）内优化。为了设计结合物，我们实施了一个自一致性优化算法NISE，明确考虑了小分子配体。我们将NISE应用于两种小分子药物exatecan和apixaban，并获得了最高亲和力的结合物，解离常数（K d）分别为120 nM和80 pM。这些K d值大幅超越了其他方法。NISE采样算法小分子结合蛋白的从头设计通常始于将配体停靠到预计算的蛋白质支架中，然后为所得到的姿势设计序列。由于初始姿势很少是最佳的，因此设计的序列也不太可能是最佳的。因此，需要一种方法来共同优化序列、骨架和配体。