您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 公司资讯 >

Pore-C助力大基因组T2T的实现

目前T2T基因组已经逐渐成为基因组组装的金标准。据不完全统计,从2019年至2024年底,已经有接近220篇T2T基因组文章发表,贝纳基因也有幸收获了超30篇T2T项目文章!但是目前发表的T2T基因组主要集中在3G以下的中小型基因组,大基因组的T2T组装一直未有突破!那么,如何实现大基因组的高质量基因组的组装甚至是T2T基因组的组装。今天小编就从大基因组的特点,大基因组的组装策略等多角度去为大家解析这个问题!


大基因组有什么特点?


大基因的研究中一直有一个共性的问题,就是大基因组为什么大?从目前发表的文章来看,我们基本上可以得出这样一个结论,即大量的重复序列的插入,是基因组变大的主要原因;所以,大基因组最主要的特点就是普遍具有大量的重复序列


高重复序列的基因组就是复杂基因组吗?


高重复序列的基因组并不一定是复杂基因组。

这是因为重复序列我们可以大致分为散在重复(Interspersed Repetitive Sequences)和串联重复(Tandem Repeats);散在重复,即我们通常在基因组重复序列注释中研究的SINEs(短散在核元件,Short Interspersed Nuclear Elements),LINEs(长散在核元件,Long Interspersed Nuclear Elements),LTR(长末端重复序列逆转录转座子,Long Terminal Repeat Retrotransposons)以及DNA转座子;其序列长度一般从几百个碱基到上万个碱基不等,大部分有几千个碱基组成;串联重复,即序列由简单的双碱基对到复杂的多碱基对组成,并且这些重复单元一个接一个地排列,形成较大的重复区域。包括卫星序列(satellite,序列长度一般大于100bp);小卫星(minisatellite,序列长度一般为几十bp);微卫星(microsatellite,序列长度一般小于10bp);从T2T基因组的实现历程中我们发现,复杂基因组或者说基因组的复杂组装区域,恰恰是富集了后者,也就是串联重复序列的区域的基因组,例如:着丝粒、端粒、rDNA区域等等。从以下几个项目案例我们可以看到,在接近相同的HIFI测序深度的情况下,串联重复比例较高的基因组,其组装连续性指标Contig N50更低。


表一:大基因组组装案例


image.png


所以,串联重复序列比例高的基因组才是复杂基因组,高串联重复区域才是基因组组装的复杂区域



如何在未组装基因组的时候,预测串联重复序列的比例,也就是基因组的复杂程度呢?


在基因组研究中,通常情况下为了预测基因组大小,我们会进行survey分析,也就是基于kmer的原理预测基因组大小!这个分析中我们也可以通过杂合峰和复制峰评估基因组的杂合度和重复序列的比例!对于二倍体基因组,我们一般认为复制峰在主峰深度(depth)二倍的位置,因为存在复制,所以depth更高。基于此原理,我们可以推测串联重复序列单元由于在基因组中以串联重复的形式重复了几百、几千甚至是几万几十万次,那么这些序列的kmer深度应该出现在几万几十万以上的区域!那么,捕捉这部分kmer就能够估计该基因组是属于普通基因组还是串联重复较高的复杂基因组!


在真实的案例中,我们验证了这个推测:



案例一:黄瓜基因组

该基因是目前公认的复杂基因组,基因组中存在大量的高重复区域,截至目前,依托N50 200K的ONT超长序列,黄瓜的依然未达到所有染色体T2T,依然存在一个gap未填补(ONT200K超长 项目文章|黄瓜近完整参考基因组及多组学综合数据库);

在黄瓜的survey分析中,我们做了这样的分析:

histo -h参数为10w,即kmer深度限制在10w以内的时,kmer number为21,669,923.780,评估得到基因组大小为290.48M;

当该参数修改成 10ww,即不限制kmer的数量,kmer number为25,024,623,862,评估基因组大小为335.45M;

从以上结果我们可以看到,在黄瓜中10w以上的kmer数量(与串联重复区域相关)占到总kmer数量的13.4%;


image.png




案例二:水稻基因组

水稻基因组目前已经发表多篇T2T基因组,除部分染色体端粒区域存在大片段的复杂区域之外,整个基因组相对黄瓜可以认为是一个简单基因组,用上述方法,我们对水稻进行了survey分析;

histo -h参数为10w,即kmer深度限制在10w以内的时,kmer number为31,716,850,952,评估得到基因组大小为395.47M;

当该修改成 10ww,即不限制kmer的数量,kmer number为32,162,290,173,评估基因组大小为401.03M;

从以上结果我们可以看到,在黄瓜中10w以上的kmer数量占到总kmer数量的1.38%。


image.png




从以上两个案例我们可以看到,判断是否为复杂基因组,也就是该基因组串联重复比例是否较高,可以使用kmer深度估计的方法,计算深度10w以上的kmer数量占整个kmer数量的比例,如果该比例较高,您的基因组大概率是一个复杂基因组!



复杂大基因组应该如何制定组装策略?


1. HIFI在复杂基因组组装中表现不佳

目前,基于Pacbio revio平台产出的HIFI数据,单芯片产出数据高,数据准确性高,成为组装大基因组的主流;但是,在大量的项目经验中,我们发现HIFI测序恰恰在复杂基因组组装中表现欠佳,从表一的大基因组组装案例中,我们也能发现这个问题,基因组越复杂(串联重复比例越高),HIFI的组装越呈现碎片化。


2. ONT超长发挥中流砥柱的作用

ONT超长序列的出现,最终实现了T2T基因组的组装;由于其可以实现序列长度N50>100k、150k、200k的测序,利用这些超长序列,大量的基因组完成了复杂区域即高重复区域的跨越和组装!


3. Pore-c是大基因组T2T组装实现的最后突破口

部分中小型基因组,如果高重复复杂区域较小,ONT超长序列或contig序列可以完美连接的情况下,T2T可以顺利实现;但是对于大基因组而言,一条染色体的长度很可能就是一个小基因组的大小,其高重复复杂区域的大小可想而知。在这种情况下,ONT超长可以有效提高contig序列的连续性,但是对于大基因组,重复序列contig过多,HIC受限于重复序列区域互作信号较少的缺点,无法有效判断该区域contig之间的互作关系,也就是排列关系的时候,Pore-c提供了最后的突破口,助力大基因组T2T的实现。如下图:在大基因组高重复区域,HIC互作信号呈现空白状态,无法指导contig的挂载,但是同样的区域Pore-c互作信号充足为大基因组重复序列挂载提供了有利支持。此外,由于Pore-c不需要过高的数据量(建议20X),在挂载运算的时候也节省了大量的运算资源和分析时间。

我们曾经在下文中详细描述了HIC和Pore-c挂载的主要区别(喜报 | Pore-c最新实测进展,显示巨大潜力,解决基因组组装掐脖子问题

image.png

image.png


基于以上研究,我们提出大基因组研究策略如下:

image.png

Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. 鄂ICP备2021008976号-2