项目文章|青岛百合首个完整线粒体基因组揭示了其独特的多染色体结构
研究简介
2024年5月24日,山东省林草种质资源中心仝伯强,刘丹老师团队在Plant Cell Reports杂志上发表题为“Comprehensive analysis of the complete mitochondrial genome of Lilium tsingtauense reveals a novel multichromosome structure”的研究性论文,系统分析了青岛百合(Lilium tsingtauense) 的完整线粒体基因组,并揭示了其独特的多染色体结构。通过结合BGI短读和Nanopore长读测序技术,研究人员完成了青岛百合第一个完整的线粒体基因组的测序、组装和注释,并进行了广泛的比较分析。贝纳基因提供了本研究中基因组测序和生物信息学分析等服务。
文章题目:Comprehensive analysis of the complete mitochondrial genome of Lilium tsingtauense reveals a novel multichromosome structure
发表期刊:Plant Cell Reports(IF2023=6.2)
期刊分区:JCR一区,中科院(生物学大类2区)
发表时间:2024.05.24
导语
百合属植物在医学、食品和园艺领域具有重要的价值,而且在COVID-19疫情防控中发挥了重要的作用。青岛百合(L. tsingtauense)是中国特有的濒危物种,主要分布在崂山地区。作为百合种质创新和园艺品种育种的重要亲本,关于其线粒体基因组的信息尚未报道,且百合属的系统发育关系也存在争议。研究表明,植物线粒体基因组富含重复序列,导致频繁的同源重组。这些重组活动是植物线粒体DNA结构变异的重要因素。尽管大多数植物线粒体基因组表现为单一环状染色体结构,但近期研究揭示了一些物种中存在线性和多分支结构,展示了线粒体基因组结构的多样性。然而,控制这些现象的调控机制目前尚不清楚。同时,种内变异数据的缺乏,也进一步增加了揭示独特线粒体结构进化力的难度。
本研究通过BGI和Nanopore平台测序和组装了青岛百合线粒体基因组,首次揭示了其罕见的多染色体结构。研究分析了基因组大小、GC含量、密码子使用偏好、重复序列、RNA编辑和序列迁移事件,并与其他被子植物进行了比较,明确了青岛百合的系统发育位置。本研究有助于阐明百合属线粒体基因组的特征,为百合属种间定向育种、种质创新和这一观赏经济作物的开发提供参考,也为深入研究具有多染色体结构的线粒体基因组的遗传学和进化奠定基础。
主要研究结果
1. 青岛百合线粒体基因组的特征
本研究使用三代Nanopore数据及二代BGI数据对青岛百合线粒体基因组进行组装。结果显示,青岛百合的线粒体基因组由27个独立的环形染色体组成,总长度为1,125,108 bp,GC含量为44.90%。这些染色体的大小从16583 bp到115143 bp不等,包含36个蛋白质编码基因、12个tRNA基因和3个rRNA基因。这些核心基因包括ATP合成酶、NADH脱氢酶、细胞色素c生物合成酶、细胞色素c氧化酶、成熟酶和核糖体蛋白基因等。这些染色体结构独立且存在频繁的基因组重组现象。
图1青岛百合线粒体基因组的简图
注:A图表示基于BGI数据组装的线粒体基因组草图;B图表示基于Nanopore数据解析重复区域后获得的27个环形染色体简图。数字表示节点名称,红色节点为预测的重复区域。
图2 青岛百合线粒体基因组的基因图
注:圆环外侧和内侧显示的基因分别是顺时针和逆时针转录的基因,内圈的深灰色区域表示GC含量。
2. 密码子使用偏好及RNA编辑位点预测
研究分析了青岛百合线粒体基因组中蛋白质编码基因(PCGs)的密码子使用偏好和RNA编辑位点。结果显示,青岛百合线粒体PCGs的总长度为34771个碱基,大多数PCGs的起始密码子为ATG,但nad1和rps10基因的起始密码子为ACG,可能由C-to-U RNA编辑导致。终止密码子主要为TAA。研究通过PREP套件和转录组数据预测并验证了591个RNA编辑位点,主要为C到U的转换。这些编辑位点分布在多个基因中,显示出青岛百合线粒体基因组中RNA编辑的广泛存在。
图3 青岛百合线粒体基因组的相对同义密码子使用情况
图4 青岛百合线粒体基因组中各PCG的RNA编辑位点数量
3. 重复序列分析
研究分析了青岛百合线粒体基因组中的重复序列。总共发现了221个SSR(简单序列重复),其中四聚体重复序列最多。15个染色体上共找到22个串联重复序列(TRs),长度在11到56 bp之间。130对分散重复序列(TEs)分布在22个染色体上,包括53对回文重复和77对正向重复。研究表明,这些重复序列在基因组重组中起重要作用,特别是大重复序列(LRs)通过频繁的同源重组,形成多染色体结构。植物线粒体基因组通常比叶绿体基因组和核基因组进化速率更低,但通过对12种植物(包括10种被子植物和2种裸子植物)完整基因组的比较分析,结果显示线粒体基因组的非编码区变异显著,表明非编码区和编码区在选择压力或突变修复机制上可能存在差异,导致了这两个区域进化速率的不同。
图5 重复序列的分析
注:A图表示微卫星重复序列分析;B图表述串联重复序列和分散重复序列分析
图6 12种植物完整细胞器基因组比对可视化
注:以银杏(Ginkgo biloba)的细胞器基因组作为参考。X轴表示全基因组的序列坐标,Y轴表示比对区域的相似性,表示与参考基因组的百分比相似度(50-100%)。A图表示线粒体;B图表示叶绿体。
4. 线粒体-叶绿体基因序列迁移分析
研究发现,青岛百合线粒体基因组与叶绿体基因组之间存在广泛的基因序列迁移(MTPTs)。在叶绿体基因组组装和注释过程中,发现线粒体基因组中有许多来自叶绿体DNA的片段。通过BLAST比对,鉴定出18个同源片段,总长度为2848 bp,占线粒体基因组总长度的0.25%。这些片段中包括两个完整的tRNA基因(trnH-GUG和trnW-CCA)。这种基因序列的迁移表明了线粒体和叶绿体基因组之间的潜在水平基因转移事件。
图7 序列迁移分析
注:图中黄色部分表示线粒体基因组的环形染色体(M1-M27),绿色部分表示叶绿体基因组,蓝色线条表示同源基因片段。
5. 系统发育与共线性分析
系统发育分析表明,青岛百合属于百合科,与椰子(Cocos nucifera)和枣椰树(Phoenix dactylifera)关系密切。这一结果与最新的APG IV分类系统一致。研究通过24个被子植物的线粒体基因组构建了系统发生树,基于24个保守的线粒体蛋白编码基因(PCGs)进行分析。
共线性分析显示,青岛百合与其他六个相关物种之间存在同源共线性区块,但这些区块的长度较短。青岛百合线粒体基因组与椰子线粒体基因组的共线性区块最长,达75.6 kb。分析还揭示,青岛百合的线粒体基因组高度碎片化,分裂成多个独立的环状染色体,与其他物种相比,基因组重组频繁。这些数据表明青岛百合在进化过程中经历了频繁的基因组重组事件,导致其线粒体基因组结构的高度多样化。
图8 本研究中包括的24个线粒体基因组的系统发育和基因含量
注意:A图表示基于24个保守线粒体蛋白编码基因构建的24种被子植物的系统发生树。选择毛茛属的银莲花和宽叶乌头作为外群。B图表示24个线粒体基因组中的基因含量,完整基因以深蓝色块表示,缺失基因以白色表示。
图9 共线性分析
注:条形表示各测试物种的线粒体基因组,带状图显示相邻物种之间的同源序列区域。粉红色带表示发生倒位的区域,灰色带表示具有良好同源性的区域。小于0.5 kb的共有块未保留,没有共有块的区域可能是物种特有的独特序列。
结论
研究首次通过结合BGI二代测序和Nanopore三代测序技术,组装和注释了百合属植物的第一个线粒体基因组,并详细分析了基因组的序列特征,包括GC含量、密码子使用偏好、RNA编辑事件、重复序列、系统发生关系和序列迁移等。青岛百合独特的多染色体结构跨越1125108 bp,包含27条独立的环状染色体,包含36个蛋白编码基因、12个tRNA基因、3个rRNA基因,GC含量为44.90%。这一发现对百合属植物的遗传学研究具有重要意义。研究结果表明,青岛百合线粒体基因组的多染色体结构主要由频繁的长重复序列对称重组和小重复序列的不对称重组形成,进化过程中频繁的基因组重组显著增加了基因组的多样性和复杂性。该研究为未来百合属植物的基因组育种、种质创新和深入的线粒体基因组研究奠定了重要基础。