基于金属配位挖掘的靶向酶发现

摘要最近的基因组测序和蛋白质结构预测的革命为理解、预测和设计酶的功能开启了新的前沿。这些努力的核心是新型酶的发现和功能注释，这对阐明基因型和表型之间的关系以及开发工业应用的生物催化剂至关重要。然而，准确预测酶的功能仍然是一项主要挑战，新酶的发现往往依赖于偶然性。在这里，我们提出了一种金属配位引导的策略，利用原子级的机制原理，对蛋白质结构数据库进行挖掘，以实现靶向发现金属酶。我们将这一框架应用于AlphaFold2蛋白质结构数据库，以识别新的Fe II /α-酮戊二酸依赖性卤化酶家族成员，这些卤化酶选择性地功能化未激活的C(sp3)-H键，这是生产药物和其他高价值化合物的关键转化。这些自由基卤化酶在庞大而多样的cupin超家族中构成了一个低丰度的类别。由于序列保守性低，它们在与相关家族成员（例如羟化酶、脱饱和酶和表异构酶）的复杂背景下尤其难以发现。我们的方法论揭示了几个先前未被认识的自由基卤化酶家族，跨越多样的系统发育空间，且计算成本极低。我们的预测通过对两个新的自由基卤化酶的实验表征得到了验证，AspX和BtnX。值得注意的是，BtnX表现出前所未有的底物多样性，为广泛的生物催化应用铺平了道路。酶在生命系统中发挥着核心作用，催化约10^5种化学转化，支持细胞代谢。这种催化的可塑性来自于包含相关但功能多样的成员的大型超家族的发散进化。对单个酶的准确功能注释对于实现发现新酶和预测生物功能所需的精确度至关重要。基于序列相似性的方法利用可获得的大量DNA序列；然而，基因序列的进化并不仅仅受到酶功能的支配。相反，它受到许多因素的干扰，包括正选择和负选择、中性漂移、突变率、冗余、可或缺性、网络组织、代谢负担和表达水平。因此，酶的主序列反映了收敛和发散进化以及物种间转移和系统发育关系的复杂历史。相比之下，酶的结构与功能之间的关系预计要高度保守，因为许多元素（如催化架构、底物结合口袋、热力学稳定性、蛋白质动力学和蛋白质折叠）需要保持才能具备功能。蛋白质结构预测的进展使大量数据库的开发成为可能，例如AlphaFold2 (AF2) 蛋白质结构数据库和ESM宏基因组图谱，为基于结构的发现提供了新的机会。事实上，基于域的发现方法可以成功应用于为特定功能而被采用的特殊结构折叠。然而，通常发现这样的稳定折叠在进化过程中被多次招募，因此可以支持极其广泛的功能，难以做出精确的预测。在这方面，结构折叠内的不同酶功能应导致化学反应机制中的保守差异，这可以与活性位点的原子级结构差异相关联。这一概念框架表明，关键的机制信息可能编码在活性位点化学的原子表示中，并引导对蛋白质结构数据库的大规模挖掘，以靶向发现具有所需功能的酶。为此，我们开发了一个靶向发现金属酶的管道。据估计，25–50%的蛋白质需要金属离子来发挥其功能，利用金属离子的可调红氧、酸碱和结构特性，扩展反应空间，超越标准氨基酸功能基团所能实现的范围。对这些位点的计算识别引起了巨大兴趣，采用协同进化或机器学习等方法，但由于缺乏有效的预测特定酶功能的能力，这些方法目前受到限制。