返回

文章详情

基因谱系揭示真核生物起源过程中多样的微生物关联

Nature2026年6月10日 00:00

主要内容 真核生物和原核生物之间在细胞复杂性上的巨大差异被认为是"当今世界上最大的单一进化不连续性",而通过原核生物(内源性)共生体进行广泛基因转移的可能性长期以来被认为是这一过程中的一个里程碑。目前关于真核生物起源的共识围绕着涉及一个与阿斯戈德古生菌(Asgard archaea)有着共同祖先的宿主和一个α-变形菌类内共生体之间广泛基因转移的内共生关系的情景展开。系统基因组学揭开了这两个确立伙伴的系统发育位置和潜在特性。然而,一些提出的真核生物起源模型涉及至少一个其他伙伴,甚至与多种非α-变形菌类共生体之间的串行相互作用,后者充当基因供体。根据重建的最后真核生物共同祖先(LECA)蛋白质组,细菌对古生菌的贡献占主导地位,并且只有一小部分细菌来源的蛋白质可以被自信地追溯到α-变形菌类,这可能表明更多的细菌贡献。然而,对这些观察的另一种解释包括重建古老系统发育关系的困难以及阿斯戈德古生菌或α-变形菌类伙伴携带的水平基因转移(HGT)。在这里,我们探讨了LECA中的蛋白质家族是否可以追溯到除α-变形菌类或阿斯戈德古生菌之外的祖先,并且支持程度与那些追溯到这些广泛接受的伙伴类似。为了缓解由于系统发育重建产生的潜在伪影,包括未抽样谱系、污染和近期HGT的影响,我们采用了最先进的方法论,并编制了经过挑选的数据集,包括可能具有最高质量的代表性蛋白质组,从中清除了低质量序列、近期的重复基因以及分布稀少的蛋白质。我们的结果确认至少有两个与α-变形菌类不同的细菌谱系信号,并且推断出一套一致的基因获取,可能是通过核细胞病毒传递的。蛋白质组重建 为了利用遍布生命之树的基因组数据的近期爆发,特别是在真核生物中,我们使用与之前研究相似的自动化方法重新推断了LECA蛋白质组。为了最小化同源性和系统发育推断中的已知方法论问题,我们对现有数据进行子抽样,以获得在真核生物生命树上均衡的代表,同时确保规模可管理和最高质量。我们还筛选了所选蛋白质组,以去除低质量和低复杂度的蛋白质。鉴于我们对深层进化节点的关注,我们保留了最近真核生物同源基因簇的单一代表。我们复制了此过程,以生成三个替代的100蛋白质组数据集(eTOLDBA、eTOLDBB和eTOLDBC),它们在大约46%的蛋白质上存在重叠,以评估我们结果的数据依赖性。我们将这些数据集中的蛋白质聚类成同源基因组(OGs),并将可能的LECA后代(LECA-OGs)定义为至少包含五个不同物种、至少三个九个真核生物超级类群以及在去除潜在污染物后两个主要真核生物干的OGs。LECA-OGs在数据集中高度一致(超过96%)。为了进一步细化这些家族,我们使用蛋白质比对轮廓相似性搜索广泛数据库(broadDB),该数据库包括从GTDB可用的超过65,000个基因组重建的订单级原核生物泛基因组和超过130万个病毒序列簇的序列代表。这一方法确保了现存多样性的最大覆盖,同时最小化了数据库偏差和近期HGT的影响。接下来,我们从扩展的LECA-OG重建最大似然系统发育,并使用该方法评估真核蛋白的单系性。如果需要,我们将其分成不同的单系LECA-OGs(mLECA-OGs)。我们对这个新的mLECA-OGs集合重复了相同的程序,构建新的比对轮廓,并重复broadDB搜索和系统发育重建。这导致最终形成了一组mLECA-OGs(在数据集中保持79%一致性),以及它们在与最近的非真核同源物的背景下的系统发育分析。对mLECA-OG系统发育中最早分裂的分析表明,只有3%的OGs可能是由真核生物超级类群之间的HGT导致的。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡