您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

使用纳米孔长读长对大真核基因组进行从头组装,并使用 Pore-C 进行 Scaffolding

 
图片

 

为了识别基因组中重要的结构性和功能性元件,并且以无偏倚的方式识别遗传变异,准确、完整、高连续性的基因组组装至关重要。

 

图片

图 1 Hg002 的组装 a) 组装统计数据 b) 整个基因组的 contig c) 20 号染色体

 

使用超长读长对人类基因组 Hg002 进行的组装具有极高连续性

 

我们使用 60x 纳米孔超长读长(读长 N50 > 100 kb)来生成高连续性的 Hg002 组装。最终组装的 contigN50 为 54 Mb(图 1a)。最大的 contig 达到 130 Mb,并且 90% 的基因组包含在大于 15 Mb 的 contig中。不仅如此,该组装的准确度也很高,BUSCO 评分为 96.9%(完整基因)。图 1b 显示了片段大小接近人类染色体的 contig。灰色的深浅变化表示 contig 或(序列)比对断裂。放大 20 号染色体可以看出,仅四个contig 就捕获了 >99% 的染色体(图 1c)。如此高效的长读长组装和矫正工具使得单个 AWS 实例的总运行时间不到 20 小时。

 

图片

图 2 使用 Pore-C 对以下基因组进行 Scaffolding a) NA12878 b) 秀丽隐杆线虫 c) 果蝇 d) 拟南芥

 

使用 Pore-C 连接信息来提高一些基因组的组装连续性

 

为了证明采用 Pore-C 数据组装 Scaffold 的有效性,我们使用 Flye 软件对除人类基因组 (NA12878) 以外的所有基因组进行了从头组装,并使用 Shasta 软件组装人类基因组。我们对每个基因组都进行了Pore-C数据处理,以生成虚拟成对连接,用于组装 Scaffold。结果显示,使用约 10x Pore-C 数据组装 Scaffold 能显著提高组装连续性,即使初始组装草案高度碎片化(图 2 a-d)。如果组装的 Scaffold N50 大于参考基因 组 N50,则表明该序列是参考基因组组装中缺少的序列。

 

图片

图 3 关于单倍型解析组装 a) 概念 b) 和 c) 分别为折叠后和采用 Trio-binning 后的 ONT 组装 d) 工作流程 e) 定相 f) 和 g) 单倍型解析 h) 和 i) 最终组装

 

新的组装工作流程结合纳米孔长读长和 Pore-C 数据,能够对大型二倍体基因组进行染色体规模的单倍型解析组装

 

很多组装方法将二倍体基因组折叠成一个单倍体组装,即随机混合了两个单倍型的变异体(图 3a)。因此,每个折叠组装的每个 Contig/Scaffold 均具有来自双亲的 k-me(r 图 3b)。而更好的方法是对每个单倍型进行单独组装,这通常通过 Trio binning 来实现。该方法从各个亲本的数据中提取特异性 k-mer,并使用它们来将读长序列分配到父本或母本,然后分别组装这两组数据。这样,每个单倍型拥有一个组装,而每个组装的每个Contig/Scaffold 仅具有来自一个亲本的 k-me(r 图 3c)。不过,亲本数据并非随时可得。我们在此提供一种替代方法,可基于长读长和 Pore-C 数据进行定相,为读长序列分配单倍型时不需要亲本数据。该工作流程基于DipASM,首先将 ONT 读长序列折叠组装,重新比对出长读长序列,然后识别变异体(图 3d)。接下来,将这些变异体定相为染色体规模的定相区块。我们从每条染色体中获得一个定相区块,其中包含几乎所有正确定相的变异体(图 3e)。下一步,使用定相过的变异体标记读长序列,并为其分配单倍型。绝大多数的碱基对可以通过这种方式定相。在最终组装步骤中,会为每个单倍型生成一个染色体规模的组装。组装而成的 Scaffolds 来源于父本或母本单倍型,并且具有人类参考基因组规模的 N50(图 3f 和 3g)。如果没有trio(母本、父本和孩子)的信息,则很难区分父本和母本 Scaffolds,这种情况下,两个组装均为父本和母本 Scaffolds 的混合物。最后, 图 3h 和 3i 显示了两个已组装单倍型的点阵图,并与 T2T CHM13 组装进行比较。

 

 

 

 
Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优