购物车
  • 全部删除
  • TargetMol
    您的购物车当前为空
活动中心 前沿资讯 Nature:PAN-GO注释集揭示82% 的人类蛋白质编码基因功能奥秘!【TargetMol】

NaturePAN-GO注释集揭示82% 的人类蛋白质编码基因功能奥秘!【TargetMol


基因是基因组中的特定片段,主要编码蛋白质及非编码RNA等分子,这些分子在维持生命活动和构建人体组织中发挥关键作用。全面解析人类基因几期编码产物的功能,对于理解人类生物学及疾病治疗至关重要。

早在2001年,人类基因组草图公布时,就有研究尝试对人类蛋白编码基因的功能进行系统分析。这些研究使用 Pfam  PANTHER 蛋白家族识别软件,并借助初步发展的 Gene OntologyGO)进行功能分类

当时的研究结果表明,大约 40% 58% 的人类蛋白编码基因具有已知或可预测的功能。然而,这些研究存在局限性: 

1. 功能描述过于粗略

2. 缺乏可追踪的实验数据

3. 未形成完整的可计算系统

因此,科学家们一直试图整合人类基因组中所有大分子的全面、可计算的功能表示,以此构建生物学和生物医学研究的基础资源。

2025226日,来自Paul D. Thomas研究团队的Marc FeuermannHuaiyu MiPascale Gaudet等人在 Nature 期刊上发表了一篇题为A compendium of human gene functions derived from evolutionary modelling的研究文章,通过整合系统进化模型和实验数据,构建了一个可计算的、可追踪的完整人类基因功能表征体系。这不仅为未来的生物医学研究提供了可靠的基因功能参考,也有助于推动疾病研究、药物开发和精准医学的发展。

构建全基因组范围的功能集

研究团队通过专家人工注释和计算支持相结合的方式,建立了一个全面的人类基因功能表征系统。该过程分为两个主要步骤:

第一步:初级GO注释的创建

筛选报告基因功能实验结果的文献(包含17500+篇经过同行评审的文献),由生物信息学家提取相关信息,并创建初级GO注释。每个GO注释都将基因与特定功能特征相关联,并附带支持该结论的证据。

他们将基因功能特征分为三个主要类别:

1. 分子功能(Molecular Function, MF:基因产物在分子水平上的功能,例如酶活性或结合特性。

2. 生物过程(Biological Process, BP:基因在细胞或机体层面的生理功能,如细胞信号传导或代谢过程。 

3. 细胞组成(Cellular Component, CC:基因产物所在的细胞结构,如线粒体、细胞膜等。 

但要注意的是,尽管这些数据是目前最广泛使用的基因功能信息来源,但它们仍然存在局限性: 

1. 局限于单篇文献的实验结果,往往更体现实验细节而非基因的全局功能。 

2. 注释冗余,同一基因可能被多次注释,甚至使用不同 GO 术语描述类似功能。 

3. 研究偏倚,部分基因研究较多,而大部分人类基因的实验数据仍然不完整。 

4. 缺乏系统性,单个实验难以全面解析基因功能,因此需要借助进化保守性原则,将不同物种的实验数据整合起来,以提高数据的覆盖度和准确性。 

第二步:PAN-GO 方法——整合与进化建模

为了克服初级 GO 注释的局限性,研究团队采用了一种新的系统整合方法,称为 Phylogenetic Annotation using Gene OntologyPAN-GO)。

PAN-GO包括了以下内容:

1. 系统性回顾 GO 知识库中的实验证据,涵盖人类基因及其进化相关基因。 

2. 筛选信息量最大、相互独立的功能特性,减少冗余,提高数据质量。 

3. 构建进化模型,追踪每个功能特征在基因家族中的起源、丢失或保留情况。 

最终,PAN-GO 通过进化建模为每个人类基因提供了整合的、去冗余的 GO 注释,形成更全面的功能表征。并使用泛素激活酶(UAE)家族的例子来说明了建模过程。

PAN-GO注释过程示例(使用UAE家族)


PAN-GO 人类基因功能注释集

PAN-GO 方法基于 6,333 个基因家族的进化模型,并整合了 61 个未包含在 PANTHER 家族中的人类基因的初级 GO 注释,最终生成了 68,667 条人类蛋白编码基因的 GO 功能注释,这些注释均由实验数据支持,覆盖 17,079 个基因,占 UniProt 记录的 20,851 个共识基因的 81.9%。具体包括: 

分子功能(MF):18,499  

细胞组成(CC):22,022  

生物过程(BP):28,146  

基因在各个 GO 领域的覆盖情况


每个基因的注释分布


研究团队对PAN-GO注释集与其他现有的 GO 注释进行了深入对比,包括:与文献中的实验性 GO 注释对比;自动功能预测方法的 GO 注释对比,发现:

1. 新增了 43,206 条人类基因的 GO 注释,其中5,570 条提供了更具体的 GO 术语,增强了功能细节。

2. 37,636 条属于 GO 本体中不同分支,填补了实验注释的缺失区域。

3. 新注释的可靠性评估为 90–97% (采用已建立的估算方法),去除了大部分实验性 GO 注释,以避免冗余信息,并选择最具代表性、独立的 GO 术语。

4. 其在功能富集分析中表现优于传统 GO 注释集,有效减少了高注释基因导致的偏倚问题,使分析结果更具生物学意义。 

人类基因功能的全景概述

研究团队利用PAN-GO构建了人类基因功能的全景,分为分子功能(MF)和生物过程(BP)两个部分。

分子功能(MF)分类中主要以调控功能为主,包括:

DNA结合型转录因子

蛋白修饰酶(如激酶和蛋白酶)

通过非共价结合调节分子功能的调控因子

信号受体及其配体

GTP酶(如G蛋白) 

转录共调节因子(如影响染色质结构的因子) 

这些类别涵盖 5,882 个基因,占已知分子功能基因总数的近一半,反映了人类基因网络的高度调控性。

MF对人类基因进行分类,共包含12,117个在PAN-GO中具有MF注释的基因


生物过程(BP)主要涵盖多个基因协同作用的生物学过程,如:

细胞水平的过程,包括信号传导、转录调控、细胞分化、细胞骨架组织等。

多细胞系统的过程,包括解剖结构发育、免疫系统功能、神经系统信号传导等。 

细胞水平的基因数量远超多细胞系统的基因,表明所有基因都在细胞层面发挥作用,而仅部分基因参与跨细胞过程。

BP对人类基因进行分类,共包含13,982个在PAN-GO中具有BP注释的基因。 


此外,通过构建的进化模型分析人类基因功能的起源,研究人员还发现了人类基因功能的继承与变化时期,具体功能类别的进化时间等,揭示了基因功能的进化轨迹。例如,大部分基因功能在单细胞生物时期即已形成,而信号传导、免疫系统等功能主要在脊椎动物及其后续演化过程中出现。

人类基因进化及功能的时间段分布


小结

总的来说,该研究构建了一个尽可能完整和准确的人类蛋白编码基因功能集,即人类基因功能组的初步版本。研究整合了过去25年来GO知识库中的实验支持数据,并结合专家评审和进化模型,使得PAN-GO功能注释在覆盖范围和精确性方面均优于以往版本。

与传统GO注释相比,PAN-GO的基因覆盖率显著提高(82% vs. 40–58%),并确保每个功能特征都有可追溯的实验证据。此外,PAN-GO的注释去冗化,使得每个GO术语都代表独特的功能特征,降低了高注释基因带来的富集分析偏差,并为机器学习预测基因功能提供了更优化的数据集。

PAN-GO将有助于识别功能知识空白,并推动新实验和未收录文献的补充。同时,未来的人类细胞及组织基因敲除高通量表型分析也将进一步完善基因功能注释。

但研究也发现,即便结合大量模式生物研究,目前对人类基因功能的整体认知仍不完整。约30%的人类基因仅有单一GO注释或完全缺乏注释,该功能组应被视为一个持续优化和扩展的工作,而非最终成果,它将依赖国际科研社区的共同努力,不断完善人类基因功能的认知。

科研助力

表观遗传学主要研究表观遗传现象的机制,包括:基因选择性转录的调控,有DNA 甲基化、基因印记、组蛋白共价修饰和染色质重塑;和基因转录后的调控,有基因组中非编码RNA、微小RNA、反义RNA、内含子及核糖开关等。表征遗传具有解释老化机制、人类发育和癌症起源等疾病的潜力。例如,文献报道原癌基因区的表征遗传控制和肿瘤抑制序列可通过组蛋白构象变化而直接影响癌症的形成和进展。 

TargetMol 表观遗传库  收集1120 种表观遗传相关的活性小分子,适用于表观遗传学研究,可用于高通量、高内涵筛选。

原文链接:

https://www. nature.com/articles/s41 586-025-08592-0#Abs1