NG项目文章|六倍体小麦T2T组装揭开“基因组垃圾”研究新纪元
2025年4月7日,潍坊现代农业山东省实验室/北京大学现代农业研究院和小麦育种全国重点实验室邓兴旺、何航、李博生团队在Nature Genetics上发表题为“A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat”的突破性成果:全球首次成功绘制了六倍体小麦的端粒到端粒(T2T)完整基因组图谱,实现了小麦基因组从“头”到“尾”无缺口的精确组装。
看到文章发表,想起了进行小麦ONT超长测序的三十多个日日夜夜!贝纳基因有幸为本项目提供了部分ONT超长测序,助力优秀科研成果的发表。
通读全文,发现文章就T2T基因组的研究有着大量的闪光工作,特别是对重复序列全面且深入的解析,为传统意义上的“基因组垃圾”赋予了新的意义!也让给我们看到大基因组T2T工作的必要性和突破性。
接下来让我们总结一下,该文章的主要亮点工作!
亮点一:多种测序技术结合最终实现了小麦T2T组装
大基因组由于重复序列更长,其T2T组装难度更高,本研究使用了超高深度的PacBio HiFi(~250×)、ONT超长测序(>100 kbp)(120×)、HIC测序(100×)及Bionano测序(200×)之外,还使用了基于ONT平台的adaptive sequencing(自适应靶向测序),生成22.96G,填补了50多个长的gap区域。那么,什么是adaptive sequencing(自适应靶向测序)?
adaptive sequencing(自适应靶向测序)是利用实时ONT测序平台,以一种完全基于生物信息学的策略,推动目标区域富集。目标的富集或消耗发生在测序过程中,在样本准备过程中不需要对目标区域进行富集。该方法在大基因组T2T组装过程中,对通过高深度ONT超长测序无法填补的gap区域,有较好的目标区域的富集作用!未来,可能成为大基因组T2T组装的常用手段!原理见下图:

adaptive sequencing(自适应靶向测序)示意图
亮点二:组装指标高
通过多种测序数据的混合组装,最终生成了CS-IAAS基因组序列,总长度为14.51 Gbp,21条染色体,Contig N50大小为723.78 Mbp。该基因组组装结果首次填补了所有空白区域,并包含了所有42个端粒和21个着丝粒。与CS RefSeq(v.2.1)相比,产生了565.66 Mbp的新序列,包括着丝粒卫星(16.05%)、转座因子(TEs;68.66%)、rDNA阵列(0.75%)等区域(14.54%)。组装准确性大于Q50。
六倍体小麦T2T基因组精确完整图,即CS-IAAS版本1.0
亮点三:转座子活动与小麦染色体重排密切相关
研究发现,在小麦四倍体化过程中,检测到223个重排事件(包括易位和倒位)。其中,4A染色体的复杂重排尤为突出。基于本高质量基因组,作者对重排发生的顺序进行了进一步的解析:首先是,倒位事件的同步性:Inv(4AS;4AL)的远端断点与Inv(4AL;4AL)的近端断点仅间隔9 kb,且该区域富含CACTA转座子(占比20.9%),提示两次倒位可能由转座子介导同时发生。其次是,易位事件的后续性:Inv(4AL;4AL)的远端断点与T(4AL;7BS)易位断点间隔767 kb,含4个从其他染色体渗入的基因。结合基因组比对,研究提出进化顺序为:两次倒位→易位。
在小麦六倍体化过程中,发现了23个主要的染色体倒置,总计518 Mbp。这些倒位在六倍体小麦中高度保守,倒位区域涉及2,083个基因,GO富集在光合作用、前体代谢产物和能量的生成和翻译过程,且受正选择驱动,表明倒位可能通过保留有益遗传变异,增强小麦生存与繁殖适应性。对断点的Motif分析显示,一个44 bp的GA/CT富微卫星序列显著富集,提示重复序列可能介导倒位发生。
总之,染色体结构变异是小麦多倍体物种形成的重要驱动力,其发生机制与转座子活动密切相关,本研究为作物基因组进化与改良提供了新见解。
小麦染色体重排
亮点四:亚基因组特异性rDNA结构解析为多倍体重复序列研究提供新范式
rDNA通常是基因组组装中gap的主要来源及T2T组装的难点。本研究基于小麦完整基因组图谱,鉴定出50.86 Mbp的rDNA阵列包含5611个完整的rDNA拷贝,超过CS RefSeq中的rDNA数量(110)。rDNA阵列间序列以转座子(TEs)为主,且具有亚基因组特异性:1A染色体为Retand类TEs,1B染色体为Tekay类TEs,6B染色体为Gypsy类TEs。根据45S rDNA单元的结构特征,将其划分为八个不同的区域并对其每个区间进行了注释。系统进化分析显示,来自同一染色体的区域聚集在一起。值得注意的是,3′外部转录间隔区(3′-ETS)序列仅能注释到B和D亚基因组,长度为40 bp。此外,与其他六个结构成分相比,内部分布的间隔区(IGS)和26S表现出显著的长度变化。 本研究通过高精度组装揭示了小麦亚基因组rDNA的结构异质性,阐明其与转座子互作及进化分化的关联,为解析多倍体基因组重复序列的维持与功能调控提供了新范式。
亮点五:两种端粒基序重复序列共存为端粒研究提供独特模型
本研究鉴定了所有21条染色体两端的端粒,端粒长度从4,718bp~32,663bp,平均长度为16,983 bp,累计长度为713,290bp。同时发现,拟南芥型序列(TTTAGGG)占小麦端粒的75%,脊椎动物型序列(TTAGGG)占16%。小麦端粒中保守的拟南芥型序列主导性提示其维持染色体末端稳定性的核心作用,而脊椎动物型序列的残留或反映古老进化事件的痕迹。两种类型序列的共存为研究端粒重复单元的起源与演化路径提供了独特模型。
亮点六:重复序列在小麦进化过程中起到积极的作用
在大基因组的研究过程中,我们通常会对重复序列感到头疼,大量的重复序列到底是“基因组垃圾”还是有什么深远的意义,一直是困扰科学界的问题,本研究为重复序列的研究提供的新的认知。
本研究发现,TE占小麦基因组的85.04%(12.34 Gb),以Gypsy、Copia和CACTA家族为主,其中212.62 Mb为新鉴定TE,两个DNA转座子亚家族(DTX_famn25/51)在六倍体化后跨亚基因组同步扩张,且D亚基因组年轻TE比例显著更高。长末端重复转座子(LTR-RT)的扩张峰(50万年前和8,000年前)分别对应小麦四倍体化和六倍体化事件。片段重复序列(SD)覆盖64.83%的基因组,A/B亚基因组SD集数量(4,444/4,187)远超D亚基因组(2,543),其重复基因富集于胁迫响应和代谢功能。TE通过捕获7,763个基因(Gypsy家族主导)并抑制表达(关联高甲基化),调控基因可塑性,而A/B亚基因组中TE插入导致的基因表达失衡可能与四倍体化期间的转座活动相关。这些发现阐明TE与SD通过结构变异、基因调控协同驱动小麦基因组演化与多倍体适应性,为作物遗传改良提供新视角。
CS-IAAS基因组组装中的TE注释和分布
亮点七:着丝粒结构的亚基因组特异性特征
小麦T2T基因组研究揭示了亚基因组着丝粒的独特结构与进化模式。研究首次发现,着丝粒区域(总跨度192.7 Mbp)94%以上由转座子(TE)构成,其中Gypsy家族的CRMs(Cereba/Quinta/Abia)和Retand家族为核心功能元件。Retand作为新型活性组分,与CENH3结合,在四倍体化前(240万年前)已入侵各亚基因组着丝粒,并于六倍体化后通过D亚基因组向A/B亚基因组渗入。CRMs在A亚基因组中爆发性扩张(30万年前增至2,666个),驱动着丝粒尺寸倍增(较二倍体TA299增长87%)。染色体2A发生大片段倒位,导致TE被CRMs替换并形成新着丝粒区域。共线性分析显示,二倍体与六倍体小麦着丝粒序列高度分化,而邻近区域保守,表明多倍化过程中着丝粒通过TE动态重塑实现独立进化。这些发现揭示了小麦通过Retand与CRMs协同作用维持染色体稳定性,其结构可塑性为多倍体适应性进化提供关键机制。
小麦着丝粒结构
亮点八:借助全长转录组获得高质量基因组注释
本研究结合167个RNA测序和14个不同组织的全长转录本信息,注释了141,035个高置信度蛋白编码基因,并鉴定出大量可变剪接形式,获得前所未有的高质量注释结果,有助于更好地理解小麦的基因和转录本特征。
目前,在基因组注释的过程中,越来越多的研究会使用到全长转录组,那么全长转录组在注释中有什么优势呢?
首先,全长转录组有助于精准解析基因结构与剪接模式。全长转录组测序捕获的是RNA的全长序列,无需拼接短读长序列,可准确识别转录本的5'和3'端,明确外显子-内含子边界,避免传统RNA-Seq拼接错误导致的基因偏差。其次,可以鉴定有可变剪切导致的不同转录本(isoform),比如本研究中鉴定到29,123个AS事件,揭示内含子保留(RI)为主要类型,并解析组织特异性剪接规律(如愈伤组织富集24.1%的AS),为功能分化研究提供基础。再次,可以纠正错误注释:例如,5B染色体上的NBS-LRR抗病基因簇在旧版基因组中被错误合并为单拷贝,而全长转录组支持其正确拆分为5个独立基因,显著提升抗病基因资源可靠性。
综上所述,本研究首次完成了六倍体小麦的T2T完整基因组的组装,并借助全长转录组实现了高质量注释。同时,对整个基因组重复序列区域,包含着丝粒、端粒、rDNA等区域中重复序列的长度及类型进行了鉴定,揭示了重复序列在小麦染色体重排及多倍体进化中的意义。