您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

【项目文章】杨属基因组研究大突破!大叶杨单倍型T2T 组装揭秘:着丝粒里藏着活跃基因?

20d1c64c-96b3-4d74-9cea-fc9627e1fdf8

英文标题:Haplotype-resolved telomere-to-telomere genome assemblyof Populus lasiocarpa unveils retrotransposon-drivencentromere evolution

发表期刊:The Plant Journal 

发表时间:2025.9


2025年9月,南京林业大学的林草学院、水土保持学院胥猛教授团队在《The Plant Journal》发表重磅研究,首次实现大叶杨(Populus lasiocarpa, PLAS)单倍型分辨率的端粒到端粒(T2T)基因组组装,并借助 CENH3 ChIP-Seq 技术,精准定位出全部功能性着丝粒的位置。该成果不仅填补了杨属植物完整基因组研究的空白,更揭示了反转录转座子驱动着丝粒进化的全新机制,将着丝粒重新定义为一种动态且具备高度表观遗传可塑性的功能区域。这一突破性发现打破了“着丝粒以卫星序列为核心”的传统认知,为解析植物基因组的进化路径与分子机制开辟了全新视角。


贝纳基因参与了该项目大叶杨基因组的测序、组装、注释及比较基因组分析等工作。


研究背景

杨属物种在生态系统功能中发挥着关键作用,同时也是具有重要经济价值的森林树种。此外,它们还为森林基因组学研究提供了理想的模式系统。而杨属这类长寿多年生木本植物,其着丝粒多样化的进化机制仍存在显著知识空白。尽管已有超过 10 个杨树染色体水平基因组发布,但受着丝粒高度重复序列的影响,其组装仍面临巨大挑战。


本研究整合了超长ONT测序、PacBio HiFi测序以及Hi-C数据,成功构建了大叶杨高质量的单倍型T2T基因组。借助 CENH3 ChIP-seq 技术,精准定位出所有功能性着丝粒的位置,同时揭示出其以转座子为核心的独特结构特征。在此基础上,通过整合比较基因组学与表观基因组学分析数据,进一步提出由反转录转座子驱动的着丝粒进化模型,该模型为解析植物着丝粒的可塑性及序列快速更替机制提供了全新研究视角。


研究结果

1、高质量的大叶杨基因组组装与注释

研究团队基于PacBio HiFi、ONT ultra-long和Hi-C测序数据,使用多种技术手段,成功构建了一个完整、高质量的大叶杨单倍型基因组图谱。两个单倍型均由 19 条染色体组成,36 条染色体实现端粒到端粒组装。单倍型Hap1(436,699,449 bp,N50 = 102,303,520 bp)和Hap2(445,009,478 bp,N50 = 102,447,0015 bp)的连续性、完整性、准确性和一致性均显著优于此前已发表的大多数杨树基因组:


(1)这两个单倍型表现出极高的BUSCO完整性,Hap1的完整度高达99.26%,Hap2为99.32%。(2)Hap1的QV评分达到58.71,Hap2的QV评分更是高达61.51。(3)Hap1和Hap2的LTR组装指数(LAI)分别高达14.29和14.96,表明其组装质量极为优异。(4)超过99.99%的HiFi测序 reads、99.99%的ONT超长读长以及98.66%的Illumina reads均能成功比对到Hap1或Hap2上,进一步验证了这些高质量组装的可靠性。

d4388e0a-f5c4-4b8e-984c-3d051e267620

图1-1 PALAS基因组与14个已发表的杨属基因组对比评估


重复序列注释结果显示,转座子(TEs)在 hap1 和 hap2 基因组中占比分别为 51.98% 和 52.44%。功能性着丝粒在 CG、CHG、CHH 三种序列环境下均为高甲基化,与拟南芥、玉米等模式植物着丝粒的甲基化特征一致,但这些着丝粒中反转录转座子衍生序列占主导地位,且缺乏经典卫星重复序列。重复序列屏蔽后,hap1 和 hap2 分别获得36155个、37012个高可信度蛋白质编码基因,BUSCO 蛋白质水平完整性均超 97.8%,证明基因注释质量优异。

企业微信截图_17681998729706

图1-2 PLAS单倍型基因组结构与表观遗传特征


de1e09c6-e228-46ee-8184-d2dd3d6957cb


2、大叶杨着丝粒的定位与大小

研究团队借助CENH3 ChIP-Seq 技术鉴定大叶杨38个功能性着丝粒,确认其为单着丝粒类型。此外,研究团队对PacBio HiFi 与 ONT 超长读长覆盖度进行评估,发现二者在着丝粒区域覆盖均较均匀,ONT 略优,因此使用ONT数据进行进一步验证,结果显示所有着丝粒均被连续 ONT 读长完整覆盖,证明单倍型分辨基因组中着丝粒组装兼具高连续性与完整性。


研究团队以ChIP-Seq 确定的着丝粒为参考,评估了quarTeT与CentIER两个工具:二者虽能大致识别着丝粒区域,但普遍高估着丝粒大小,且无法解析其内部精细结构;这两款工具在拟南芥等卫星序列富集型着丝粒物种中有效,却在大叶杨这类反转录转座子富集型着丝粒基因组中性能受限,过度依赖易导致结论偏差。


大叶杨hap1的功能性着丝粒平均长度为553 kb, hap2为544 kb。单个着丝粒的长度差异显著,hap2的Chr14最短(331.88 kb),hap2的Chr17的最长(757.83 kb)。两单倍型同源染色体 q/p 比值(染色体长臂与短臂的长度比值)高度相似,说明着丝粒位置及染色体对称性保守。大叶杨功能性着丝粒呈 “镶嵌式” 染色质结构,由交替分布的 CENH3 域与 H3 域组成,这种交替分布的结构可能是一种保守策略。

9f9a60db-7a60-46b4-b007-6e5ea18b6568

图2 PLAS着丝粒的定位


3、大叶杨着丝粒的结构图谱

大叶杨着丝粒富含反转录转座子,其功能性着丝粒区域主要由 RLG(Gypsy 类)和 RIL(LINE1 类)元件组成,这与拟南芥等模式物种卫星重复序列富集型着丝粒形成鲜明对比。大叶杨两个单倍型均含有大量转座子,且集中分布于功能性着丝粒及其周围,凸显其对着丝粒组织的关键作用;尽管转座元件丰富,两个单倍型着丝粒本身结构变异极小,而着丝粒周围区域结构差异显著大于着丝粒区域,说明转座元件是单倍型特异性结构变异的关键驱动因素。


完整 RLG 和 RIL 元件含有完整开放阅读框(ORFs),是转座活性所需酶的编码基础,全长元件与完整原件结构类似但内部序列突变会导致 ORFs 不完整,从而丧失功能活性。研究团队在大叶杨基因组中,共鉴定出 906 个完整 RLG 元件、35 个完整 RIL 元件、454 个全长 RLG 元件和116 个全长 RIL 元件。多数完整和全长 RLG 元件不存在于着丝粒区域,而所有完整 RIL 元件和几乎所有全长 RIL 元件均主要定位于着丝粒区域,这种定位差异表明 RIL 元件在塑造大叶杨着丝粒结构中的重要作用。


此外,研究团队发现小卫星和卫星序列几乎不在功能性着丝粒区域,主要位于着丝粒周围。仅在两单倍型着丝粒区域共鉴定出7个超 5kb 的相关序列,且序列相似性分析显示这些序列多起源于转座元件,凸显转座元件在串联重复序列生成中的作用,与此前研究一致。


传统的观点认为着丝粒因高重复序列和特殊表观遗传修饰,是转录抑制环境或 “基因沙漠”,但已有证据显示其内存在活跃表达基因。本研究中,大叶杨功能性着丝粒区域共鉴定出749个蛋白质编码基因,约115个在至少一种组织中表达(TPM>1),且高表达基因富集于“光合作用相关蛋白”、“脂肪酸生物合成”等功能,同时,功能着丝粒区域基因的 DNA 甲基化水平显著高于常染色质区染色体臂上的基因。

bdf9e3a6-c223-478d-a6fe-b978bec1898b

图3 PLAS着丝粒的结构特征


4、大叶杨着丝粒的表观遗传特征

大叶杨着丝粒区域比染色体臂 DNA 甲基化程度更高,这是跨类群保守特征。所有 38 个着丝粒的 H3 染色质域中,RLG 和 RIL 类反转录转座子形成嵌套式转座元件阵列,这类阵列由高度相似的首尾串联重复序列构成,传统 TRF 工具难以准确鉴定。嵌套式转座元件仅在无 CENH3 核小体结合的 H3 域存在,非嵌套式则在 CENH3 富集区域分布。嵌套式转座元件甲基化水平低于非嵌套式,暗示其入侵可能破坏原有甲基化模式,这表明调控 CENH3 核小体结合的是表观遗传状态而非序列基序。

329741a4-bce0-474e-ada8-853a51ead0e6

图4 PLAS着丝粒中的表观遗传景观


5、杨属植物着丝粒的比较分析

基因组组装的完整性与CENH3 ChIP-Seq 数据均会影响着丝粒的研究结果。研究团队利用公开的毛果杨单倍型分辨 T2T 组装版本与 CENH3 ChIP-Seq 数据相结合,精准鉴定出其 38 个功能性着丝粒,与大叶杨进行比较分析。毛果杨的着丝粒在大小、染色质组织以及转座元件主导特征方面与大叶杨高度相似。两个物种均表现出着丝粒周围区域转座元件富集以及着丝粒基因具有转录活性的特征,这表明它们在功能和表观遗传上的保守性。研究团队选取了每个物种的hap1进行着丝粒结构的比较分析,发现两个物种间的着丝粒 DNA 序列差异显著。功能性着丝粒区域的序列相似性在同源染色体间存在差异:Chr01、Chr02、Chr04-08 以及 Chr11-19 的序列相似性较高,而 Chr03、Chr09 和 Chr10 的序列相似性较低。这种差异与嵌套式 RLG/RIL 阵列相关,该阵列会破坏序列完整性并驱动着丝粒进化。非嵌套式转座元件不具备这种不稳定效应,表明嵌套式反转录转座子结构是着丝粒进化的关键驱动因素。


6、杨树逆反录转座子驱动的着丝粒进化

研究团队提出了杨树反转录转座子驱动的着丝粒进化模型:染色体上有多个多处于抑制或失活状态的潜在着丝粒位点,其激活受特定DNA甲基化和组蛋白修饰调控。RLG、RIL 等自主型反转录转座子持续转座,会破坏完整 CENH3 结构域的表观遗传结构,导致 CENH3 与 H3 结构域散在分布。DNA 甲基化水平降低会促进转座元件转座,形成“序列相似性高、CENH3 核小体占据率低”的嵌套式转座元件阵列,这类阵列扩增会引发已建立着丝粒失活、激活其他潜在着丝粒位点。


此外,富含串联重复序列或转座元件的区域可作为新着丝粒形成的底物,串联重复序列因 DNA 组织模式稳定、利于 CENH3 核小体结合具有优势,高度甲基化的转座元件DNA 能提供表观遗传标记以界定着丝粒身份。着丝粒周边区域因同时富集 TE、TR 且甲基化水平高,更易形成新着丝粒,这也解释了进化新着丝粒倾向于在原始着丝粒附近出现的现象。


尽管新着丝粒易受反转录转座子破坏,但 TR 富集的着丝粒会通过 KARMA 机制清除反转录转座子,推动 TR 阵列扩增并形成成熟单着丝粒卫星着丝粒;而 TE 富集的着丝粒虽可能短期稳定,但RLG、RIL 的持续转座会破坏表观遗传格局,引发着丝粒反复更替(失活与新激活循环),最终更易在 TR 富集区域建立新着丝粒。该模型解决了 “着丝粒功能保守但序列快速更替” 的矛盾。


该模型提出,着丝粒从 “富含转座元件” 向 “富含串联重复序列” 进化的过渡阶段,基因组可能暂时存在异质着丝粒结构:一种是部分染色体保留富含转座元件的着丝粒,其他染色体进化出富含串联重复序列的着丝粒;另一种是所有染色体着丝粒均为富含串联重复序列的类型,但非同源染色体间串联重复序列单体序列有差异。

140667bc-21a6-410f-96b4-3ac81419420e

图5 逆转录转座子驱动的着丝粒进化模型


综上,反转录转座子的破坏与表观遗传韧性的相互作用重塑了着丝粒可塑性,染色体特异性分化反映了基因组中反转录转座子活性差异,凸显转座子对核型多样性构建关键作用;该研究整合周期性的去稳定化与稳定化阶段,将着丝粒重新定义为动态的、具有表观遗传缓冲的结构域,其形成是反转录转座子与卫星重复序列进化“拉锯战”的结果。




参考文献:

Shen T, Ning Y, Wang Y, et al. Haplotype-resolved telomere-to-telomere genome assembly of Populus lasiocarpa unveils retrotransposon-driven centromere evolution[J]. The Plant Journal, 2025, 123(6): e70504.


单倍型T2T基因组(Haplotype-resolved T2T genome)

在复杂基因组研究领域,贝纳基因 一直致力于推动高质量的单倍型解析。


我们提供 成熟的 T2T 基因组全套方案,针对高杂合与多倍体物种均具备丰富经验。


依托多种分型组装与验证策略,确保结 更准确、更完整,助力科研团队深入解析等位基因差异与单倍型结构,为精准育种与基因功能研究夯实基础。


以下为贝纳基因单倍型 T2T 基因组方案的技术路线与典型应用场景,帮助您更直观地了解方案特色与科研价值。


技术路线

7de3a4f1-72d3-4e29-97d8-6cb0453f6efb


应用场景

33306ccf-0953-4f85-8139-45ffb13d9cdc


Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. 鄂ICP备2021008976号-2