基因组做完之后,还能做什么?
基因组测序完成后,后续的功能注释和精细化研究是深入理解生物体遗传信息的关键。嗜热四膜虫(Tetrahymena thermophila)作为一种重要的单细胞模式真核生物,在生物学研究中具有广泛的应用价值。尽管其基因组已多次被测序和注释,但现有的基因注释仍存在不足,尤其是非翻译区(UTRs)及其边界信息的缺失,严重制约了对其基因调控机制和功能研究的进一步深入。因此,完善基因注释,特别是UTRs的精确注释,对于揭示嗜热四膜虫的基因表达调控网络及其生物学功能具有重要意义。
为了全面注释四膜虫大核基因组,该研究整合了不同细胞阶段的转录组数据、表观遗传数据(如H3K4me3、H2A.Z、6mA)和Nanopore直接RNA测序(DRS)及ATAC-seq数据,通过开发新的生物信息学分析流程,结合人工校正和实验验证,优化改进了现有的基因注释,新增了2481个新基因,更新了23936个现有基因和8339个转录本的注释,此外还首次为26687个高可信度基因注释了新的UTR信息,并发现了20%的蛋白编码基因具有天然反义转录本。本研究不仅显著提升了嗜热四膜虫作为遗传工具的应用价值,还为其他真核生物的基因组注释提供了参考依据。
英文标题:Comprehensive genome annotation of the model ciliate Tetrahymena thermophila by in-depth epigenetic and transcriptomic profiling
发表期刊:Nucleic Acids Research(IF:16.6)
发表日期:2024 年 12 月 9 日
通讯作者:高珊教授,中国海洋大学
图1 综合转录组学和表观遗传学数据优化基因组注释
1.使用转录组数据优化四膜虫基因组注释
为了改进四膜虫大核基因组(MAC)的注释并寻找可能的新基因,该研究分析了来自不同细胞阶段(如生长、饥饿和接合过程的多个时间点)的RNA-seq数据。通过开发新的注释方法“GAET”,共鉴定出27369个候选基因,其中17170个与TGD2021的注释完全一致。其他候选基因使用DRS、单链RNA测序(ssRNA-seq)以及所有细胞阶段中表达最高转录本进一步优化了注释,最终发现了3408个新基因,生成了draft v2。
图2 IGV截图展示通过转录组数据优化的五类基因模型
更重要的是,draft v2版本优化了7817个基因的注释,例如,修正了4296个基因的内含子-外显子边界;将2858个基因合并为1314个融合基因;将518个基因分割成1036个基因;根据链特异性reads,反转了145个单外显子基因的方向。
2.使用表观遗传信息进一步完善基因注释
为了进一步提高基因注释的准确性,作者开发了一种机器学习算法,利用表观遗传标记信息(如H3K4me3、H2A.Z、6mA和核小体定位)来预测转录起始位点(TSSs)。从17170个注释的基因中选取10460个长基因训练随机森林模型,预测出24351个TSS区域。结合ATAC-seq数据,在核小体游离区域(NFR)识别23094个显著峰,将峰中心定义为候选TSS,并根据其位置分为增强型TSS(eTSS)和初步型TSS(pTSS),结果显示在转录组数据优化的27643个基因中,25346个基因有eTSS或pTSS。
图3 利用表观遗传信息优化基因注释
对3937个具有多个eTSS的基因和885对共享eTSS的头对头基因进行了人工校正,鉴定了2023个无eTSS或pTSS的重复基因。基于eTSS重新评估基因注释,鉴定出13个新基因,优化了17532个基因注释,包括调整TSS、基因融合与分割;并使用Cap-seq验证了17,301个准确的TSS,生成了draft v3,显著提升了基因注释的精度和完整性。
3.UTR 和转录调控元件的注释优化
使用DRS数据,在27650个基因中的78%(21660个)中鉴定了转录终止位点(TES),另有1915个基因含多个TES。基于draft v3版本中TSS和TES明确的基因,依据四膜虫遗传密码预测其编码序列(CDS)和开放阅读框(ORF),其中689 个无法预测 ORF 的基因被归为潜在非编码RNA(图4A)。draft v4版本共鉴定出26047个基因同时具有5′ UTR和3′ UTR,少数基因只有5′ UTR或3′ UTR。5′ UTR 和 3′ UTR 平均长度分别为192.54 bp和238.61 bp(图4B)。
图4 UTR 注释与调控元件分析
在TSS周围的近端启动子序列中,识别出了多个核心启动子motif,包括CCAAT框、TATA框、CRE(cAMP反应元件),以及参与核小体定位的REB1元件(图4C)。四膜虫的多聚腺苷酸化信号(PAS)主要由AATAAA motif及六个变体组成,切割位点处的AT motif与哺乳动物 CA motif不同,说明四膜虫具有独特的mRNA处理机制(图4D、E)。
四膜虫基因的Poly(A)尾长度分布显示出两个峰值:13–30 nt和95–100 nt(图4G)。据此将基因分为三类:短尾(5–19 nt)、中等尾(19–239 nt)和长尾(>239 nt)(图4H)。GO富集分析表明,短尾基因主要与膜和离子运输途径相关,而长尾基因则与线粒体、翻译、RNA加工和核糖体功能相关(图4H和I)。此外,Poly(A)尾长度与基因表达水平正相关(图4J),表明较长的Poly(A)尾可能有助于稳定mRNA。
4.基因组注释的人工校正
随后,在GSAman中进行了人工校正,对180条非核糖体DNA(non-rDNA)染色体进行了三轮评估(图1D和5A)。首先,检查了3937个具有多个eTSS的基因,其中有3908个能够转录产生反义转录本(图5A和7B–E),27个基因包含可变TSS(图5A和B),2个基因包含三个eTSS。其次,分析了2023个既无eTSS也无pTSS的重复基因(图5A),分为849个串联重复基因(图5A和C)和1174个分布在不同染色体上的短外显子重复基因(图5A和E)。最后鉴定了15个具有超高剪接多样性的基因,其非编码外显子几乎都受到可变剪接的影响(图5D),并对这些基因的主要转录本进行了注释。
图5 通过人工校正完善和全面注释大核基因组
在人工校正过程中,使用全基因组测序数据进行纠错(图1D和5A),校正了3759个插入、135个删除、43个转换和48个颠换,并通过Sanger测序得到了验证。重新预测了645个外显子有误的基因的CDS,使得438个基因获得更准确的CDS预测。通过与多个蛋白质数据库比对,共注释了25846个功能基因,相比TGD2021版本增加了1732个功能基因。包括:亮氨酸富集重复域、环核苷酸结合域等新注释的基因。此外,还注释了三个与表观遗传调控相关的蛋白质,包括组蛋白H3K4特异性甲基转移酶SET域和16S rRNA m5C甲基转移酶NSUN4同源蛋白。
对于Pol I转录的基因,注释了两个18S rRNA、两个28S rRNA,和173个8S rRNA。对于Pol III转录的基因,注释了172个5S rRNA、691个tRNA、58个小核仁RNA(snoRNAs)和26个小核RNA(snRNAs),相比TGD2021版本增加了57个snoRNAs和22个snRNAs。重新鉴定了四膜虫的IES,未发现新的IES序列。在MDS的连接位点周围未检测到表观遗传标记的序列特征。
最终,在draft v5版本中,通过基因组纠错和人工校正,优化了3937个多eTSS基因的TSS注释,重新注释了2023个重复基因和15个普遍AS基因,重新预测了438个基因的CDS,并注释了25846个Pol II转录基因、177个Pol I转录基因和947个Pol III转录基因。
5.可变剪接产生的转录本注释
该研究显著扩展了四膜虫基因组中的可变剪接(AS)注释。通过高度优化的基因注释识别了所有六种类型的AS事件(外显子跳跃、可变最后一个外显子、内含子保留、互斥外显子、可变5′剪接位点和可变3′剪接位点),在5500个基因中鉴定出8339个可变剪接产生的转录本,其中内含子保留最为常见。同时注释的AS基因(5718个)和转录本(8339个)数量远超TGD2021版本(基因:459;转录本:516),其中2136个基因具有至少两个可变剪接产生的转录本。此外通过RT-PCR验证了约90%的可变剪接,证实了基于深度测序和DRS 数据的可靠性。
图 6 可变剪接生产的转录本注释
进一步分析显示,2131个可变剪接产生的转录本在所有时期均存在,而其他转录本则表现出阶段特异性高表达趋势。例如,TTHERM_001026363的AS转录本在接合过程中内含子保留比例显著增加。GO富集分析显示,这些转录本主要与细胞周期和减数分裂相关,由此揭示了可变剪接在四膜虫基因调控中的重要作用。
6.天然反义转录本(NATs)的鉴定
该研究观察到许多基因位点可以从正义链和反义链双向转录(图7D–F),共鉴定出5525个NATs,占蛋白质编码基因的20%(5525/26961)。大多数NATs缺乏可识别的CDS(> 100氨基酸),但有11个NATs被注释为潜在的功能蛋白,112个显示出高编码潜力。NATs根据位置分为启动子NATs、外显子NATs和内含子NATs。NATs通常较短且表达水平较低,但在剪接和结合过程中其长度和表达量显著增加,揭示其在剪接和结合阶段的重要作用。
图7 五种NATs鉴定
值得注意的是,65%的NATs表现出与其正义编码基因相反的时间特异性表达模式(图7G),例如,TTHERM_00412050的NATs表达逐渐减少,而其正义转录本表达增加(图7H),表明NATs可能通过降解正义mRNA或干扰其翻译来诱导基因沉默。这一发现与拟南芥中正义和反义转录本相互排斥的现象一致。
本研究通过整合多组学数据和表观遗传信息,优化了四膜虫的基因组注释,精确识别了TSS和TES,完善了UTR信息,更新了蛋白质功能注释,并增加了剪接转录本注释。该研究为深入解析四膜虫基因表达调控机制提供了重要工具和数据支持,同时本研究建立的分析流程也为其他真核生物的基因组注释提供了可借鉴的方法和参考框架。
参考文献:
Fei Ye, Xiao Chen, Yuan Li, Aili Ju, Yalan Sheng, Lili Duan, Jiachen Zhang, Zhe Zhang, Khaled A S Al-Rasheid, Naomi A Stover, Shan Gao, Comprehensive genome annotation of the model ciliate Tetrahymena thermophila by in-depth epigenetic and transcriptomic profiling, Nucleic Acids Research, 2024;, gkae1177.
点击文末“阅读原文”获取原文链接!