项目文章 | Plant Communications发表首个番茄ONT only T2T基因组
2025年11月18日,中国科学院遗传与发育生物学研究所梁承志研究团队在Plant Communications期刊发表标题为 “A telomere-to-telomere reference genome assembly of tomato cultivar Heinz 1706”的研究论文。该研究使用ONT超长测序技术,以ONT only的组装方式,对番茄栽培品种Heinz 1706进行测序及组装,构建了首个高质量端粒到端粒(T2T)参考基因组SL-T2T。在此基础上系统解析了着丝粒结构、45S rDNA和卫星重复序列分布及全基因组甲基化图谱特征。该研究为番茄功能基因组学研究与分子育种提供了重要的基础数据资源。同时作为首个ONT only T2T基因组组装案例,为后续T2T基因组组装研究提供了重要参考。
贝纳基因参与了该项目ONT超长及二代测序工作

研究背景
番茄(Solanum lycopersicum)是全球最重要的蔬菜作物。作为遗传学和基因组学研究的模式植物,番茄已被广泛研究。首个Heinz 1706的基因组于十多年前发布,而最新使用HIFI测序数据组装的改进版本SL5.0仍存在大量的缺口、端粒缺失、45S信息缺失的问题。
研究结果
高质量基因组组装与注释
本研究基于95.7Gb的超长ONT数据(98X,QV25)数据,使用Hifiasm软件进行组装,初步组装中就得到10条T2T(0 gap,且含双端端粒)染色体,随后通过gap填补,端粒延伸,及Illumina短读长数据校准,最终构建出高质量的SL-T2T基因组。该基因组总大小为831.45 Mb,contig N50为68.49 Mb,12条染色体包含全部24条端粒,除2号染色体上的45S rDNA阵列外已完全组装完成。该基因组基于Kmer评估的碱基质量值(QV)达到53.39, BUSCO评估完整性为98.6%。与SL5.0版本相比,SL-T2T版本新增了总计29.67 Mb的序列,其中45S rDNA及其他串联重复序列占84.51%。同时,填补了SL5.0中全部31个缺口,纠正了倒位与易位等结构错误。以上序列在SL-T2T中均得到连续ONT reads比对支持,该结果表明超长且高精度的ONT reads在组装复杂区域方面具有优势。对SL-T2T基因组进行注释,获得36,006个基因,与SL5.0不同的基因具有更优的转录组证据支持。
着丝粒研究
本研究基于番茄着丝粒富集重复序列 TGRIV,在SL-T2T中鉴定出12个着丝粒,总长度为40.90 Mb。值得注意的是,SL-T2T的着丝粒区域共有582个注释基因,基因密度远低于基因组的平均水平。着丝粒区域主要由长末端重复序列(LTR)逆转录转座子组成,仅包含1.24 Mb的串联重复序列。卫星序列SlSat181主要分布于亚端粒及2号和5号染色体着丝粒区域,而小卫星序列SlSat35在基因组及全部12个着丝粒中广泛存在。
45S rDNA研究
既往研究报道,大量45S rDNA位于2号染色体起始端,估算约为2300个拷贝。本研究中基于ONT数据,检测到Heinz 1706基因组大约包含3400个完整的45S rDNA重复单元。研究发现,SL-T2T中的45S rDNA阵列紧邻染色体起始端的端粒,该区域包含2105个完整单元,总长度达19.11 Mb。2号染色体上的所有45S rDNA单元均呈现相同方向排列。除2号染色体外,仅发现1个45S rDNA单元,位于染色体11的24.38 Mb处。SL-T2T组装的45S rDNA序列不完整,显然是由于存在大量高度相似的45S单元,其组装重复单元的平均序列相似度为99.92%,接近ONT数据的精度上限。为了进一步了解番茄中45S rDNA的进化模式,本研究还计算了最近发表的几种茄科植物T2T基因组中45S rDNA单元的拷贝数和平均序列相似性。在这些物种中,SL-T2T的45S rDNA大小和单元相似性最大,表明番茄在与马铃薯分化后经历了45S rDNA的近期爆发性扩张。除了完整的45S rDNA单元外,还鉴定出两个伪45S rDNA区域,这些区域仅包含部分18S或28S rDNA单元序列,分别位于6号染色体和11号染色体上。该区域主要由微卫星SlSat53扩增组成,推测其形成源于45S rDNA序列的降解与SlSat53扩张。
基因组甲基化研究
本研究通过ONT测序数据,在SL-T2T中鉴定出共计48,498,625个甲基化位点。研究发现,串联重复序列中mCG的数量和占比较基因组平均水平显著增加,这与人类基因组的甲基化模式相符,提示mCG可能在番茄基因组完整性维持中发挥作用。LTR逆转录转座子中mCG和mCHG的占比较基因组平均水平大幅上升,这与DNA甲基化通过沉默转座子维持基因组稳定的功能相一致。值得注意的是,45S rDNA中mCG和mCHG的密度在所有基因组区域中最高,这可能与核仁组织区的选择性表达有关。类似地,mCHH在上游基因区域的密度增加,提示mCHH具有基因调控功能。
结语
综上,该研究基于ONT超长测序数据,构建了一个番茄的T2T参考基因组 (SL-T2T),该基因组序列在连续性和完整性方面均显著提升。
在此基础上,分析并揭示了卫星 DNA 在全基因组范围内的分布规律、亚端粒与着丝粒区域的序列特征,rDNA 区域的演化特点及DNA甲基化图谱特征。该研究为番茄功能基因组学研究与分子育种提供了重要的基础数据资源。


027-62435310 |
service@benagen.com |
