T2T 基因组2.0 — 基因组组装到达终点了吗?
T2T基因组的发展带领基因组组装进入一个新的时代,在这个过程里,我们对基因组的组装有了更深刻和准确的认识——基因组的组装难度在于重复序列而非基因序列;所以,T2T组装的历程中,我们不断在克服和攻关的,大部分都是串联重复序列富集区域,例如:着丝粒区域,rDNA区域、端粒区域,甚至是这些结构的复合区域!
非常幸运的是,对于普通的基因组,ONT超长为我们打开了通往胜利的大门。N50>50K、100K、150K、200K。我们在挑战基因组提取和测序长度极限的同时,也组装出了一个个0gap,甚至是T2T基因组;2022年至今,不完全统计,我们已经参与了几百个T2T基因组项目;提供了超5000张超长芯片的测序服务;参与测序及组装,见刊的文章近20篇(IF>160),这些数字也让我们深感欣慰。
IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集
但是,在这个过程中,也遇到很多复杂的,具有挑战的基因组,比如,黄瓜基因组,基因组虽小,却包含了大量的重复序列(DNA卫星、45S rDNA和TE序列等)。该基因组ONT超长N50>200K,测序深度达到94.97×,依然留下了一个gap未完成填补的遗憾!
ONT200K超长 项目文章|黄瓜近完整参考基因组及多组学综合数据库
那么,除了用长读长序列跨越gap区域这个维度,是否还有另一个维度可以尝试解决T2T的问题呢?答案是,有——序列的互作关系!
我们在重复序列较多的复杂基因组的HIC图上,经常会看到互作信号不连续的空白区,往往在未挂载区域检测到没有互作信号,无法挂载到染色体区域的重复序列!对于HIC而言,一方面由于仅能检测两两互作,限制了每个reads可用于分析的接触点数量;同时,HIC具有二代测序数据的天然缺陷—GC偏好,使HIC可以完成挂载绝大部分区域的特性,但是又剥夺了其实现完美组装抵达T2T终点的能力!
而pore-c不同,Pore-C 将染色质构象捕获和长读长Nanopore测序相结合,天然地携带了Nanopore测序的一切优势:
(1)长读长(不需要打断),基于此,pore-c能提供长程接触点信息,直接获得相互作用的多个DNA区域互作信息;
(2)不需要PCR扩增的过程,避免了GC偏好,对重复序列区域有良好的适应性;
(3)直接测序,保留了序列上大量的修饰信息(甲基化信息等)。
前两个特点就为我们在T2T基因组组装上打开了突破口,至于特点三,未来可期……
为此,我们选取了富含重复序列的多倍体基因组做了HIC和Pore-c挂载的组装测试!
前情介绍:基因组大小2G(单套500M),HIC测序120G(60×);pore-c测序60G(30×);
见证奇迹的时刻:
1、 挂载到染色体区域的序列长度,pore-c结果比hic结果多了54M!Contig数量多了228条!
2、 228条contig,在HIC中互作信号杂乱无序,无法人工调整,甚至没有信号!而在pore-c中互作信号非常连续!
Pore-c互作热图细节展示
Hic互作热图细节展示
3、 检测以上contig信息,228条contig重复序列占比大于90%,注释信息显示,rDNA区域序列占比60%!
至此,我们看到富含重复序列的复杂基因组迎来了T2T组装的曙光,更多的复杂基因组可以跨入完整基因组的时代——T2T 2.0时代!
T2T 2.0组装
组装策略:
HiFi>n*50×+ ONT超长N50>100Kb(>n*50×)+ Pore-C(>n* 30×)+二代
Pore-c测序数据展示:
优秀的挂载需要足够的有效互作reads!通过对Pore-C实验流程的不断优化,贝纳基因已积累大量项目经验。目前,单cell产出最高超100G,已完成样本的平均单cell产出超80G;reads N50超7K,有效互作率(酶切后有效reads/Total reads)可达50%以上。
实测数据展示
灵山可能依然未到,但是取经路上的每一步,已经足够让人欣喜……