干货指南|Hi-C辅助组装的实验分析全攻略
一、
概述
早期基因组组装仅通过二代测序得到的短读长reads,按照overlap组装出contig序列。随后,基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,得到scaffolds(类似于supercontigs)。无论是contig还是scaffold组装级别,都不能在染色体水平反映基因组的结构,这也意味着解析端粒、着丝粒等复杂区域相当困难。随着多种测序技术的涌现,例如Hi-C、长读长测序、光学图谱等技术,可以实现染色体水平的组装,大幅提高基因组序列的连续性和完整性。
今天带大家了解Hi-C技术及其在基因组辅助组装上的应用!Hi-C全称高通量染色体构象捕获(high-throughput chromosome conformation capture)技术,是一种研究全基因组三维构象及分析染色质片段相互作用的技术,可以帮助我们了解基因组内部的互作关系。具体而言,染色体内的相互作用大于染色体之间的相互作用,近距离的相互作用大于远距离的相互作用,应用到基因组组装过程中,我们可以对组装的片段进行聚类和排序,并且定向到正确的位置,也就是染色体挂载,将基因组组装进一步提升到染色体级别。
二、
Hi-C实验流程
Hi-C文库制备流程主要包括甲醛交联、细胞裂解、内切酶酶切、末端修复及生物素标记、片段连接、解交联、捕获带生物素标记的片段、文库构建及质检等步骤。Hi-C文库质量受多种因素影响,如细胞裂解剧烈程度、细胞裂解期间的蛋白酶抑制剂含量等,Hi-C文库质量直接影响后续的有效数据产出。
图1 Hi-C总体实验流程图 (Lieberman-Aiden et al., 2009)
通过构建高质量的Hi-C测序文库,我们可以获得高准确率的染色质互作信息,为后续的染色体挂载分析提供有力基础。
三、
数据质控
数据过滤
Hi-C技术使用的是二代测序(与之一争长短的是结合三代测序的染色质构像捕获技术Pore-C,详情请戳:T2T 基因组2.0 — 基因组组装到达终点了吗?),原始测序数据(raw data)中包含了低质量序列和接头序列,为了保证分析结果的可靠性,我们可以使用fastp等软件对Hi-C原始测序数据进行过滤,得到FASTQ格式的clean data后进行后续分析。
比对参考基因组
经二代双端测序和数据过滤后,我们可以分别获得clean data的reads1和reads2,然后将reads1和reads2分别与基因组草图(contig级别基因组)进行单端比对。由Hi-C测序产生的两条reads不一定都能够比对到参考基因组。例如,一条reads能够比对到参考基因组,而另一条reads无法比对到基因组,这种情况被称为Singleton;或者在植物基因组中,由于重复序列较多,可能会出现一条reads可以比对到两个或者多个参考基因组位置,这种情况被称为Multiple mapped reads;另外,也可能由于基因组组装不完整,存在许多gaps,导致两条序列都无法比对到参考基因组,这种情况被归类为Unmapped reads。这三种类型的reads都不适用于后续的分析。只有当两条 reads 均能唯一比对到基因组草图上时,才能表明这些reads所在的 DNA 片段存在互作关系,这两条reads被称作Unique Mapped Paired-end Reads。
图2 测序reads无法比对到参考基因组的三种情况(https://www.biodiscover.com/reaseach/727773.html)
有效Hi-C数据
Unique mapped paired-end reads并非全部来自于空间上相邻但在线性上不相邻的酶切片段。因此,测序产生的Hi-C互作数据存在较高的假阳性率,正确筛选出包含有效信息的Hi-C数据是确保后续分析结果准确性和可靠性的关键。
我们可以进一步将Hi-C测序数据中双端数据均能唯一比对到基因组草图上的数据,分为有效Hi-C数据(Valid Interaction Pairs)和无效Hi-C数据(Invalid Interaction Pairs)。只有当两个reads能够分别比对到两个不同的酶切片段上,并且实际片段大小符合理论的片段大小时,才会将这些数据归类为有效Hi-C数据。
无效Hi-C数据通常包括以下几种类型:
Re-ligation:有一个reads中也包含了酶切位点,且刚好没有被酶切。
Self circle:自环,即首尾都有(不包括接头)酶切位点。
DanglingEnd:边缘悬挂,同时比对到同一个酶切片段;引起的原因有:1.磁珠洗脱不合格2.生物素误入。
Dumped:能比对到基因组的两个酶切片段中,但是观测到的片段大小与理论的片段大小不一致。引起的原因有:1.酶切反应时间过长,或者盐离子浓度和种类不合适,导致酶切位置异常2.酶切片段被DNA外切酶降解。
Adapter Polluted:至少一条reads被接头序列污染。
图3 有效Hi-C数据和无效Hi-C数据(https://www.biodiscover.com/reaseach/727773.html)
四、
文库评估标准
一个合格的Hi-C文库对染色体挂载的准确率至关重要,只有有效Hi-C数据才能为后续辅助基因组组装提供有效信息,因而其在测序数据中的比例是衡量Hi-C文库质量的重要标准。
有参考基因组
在有参考基因组的情况下,我们可以用下面的两个指标评估Hi-C文库的质量。
Mapped Rate:比对到参考基因组的Hi-C reads/总的Hi-C reads,该比例与基因组质量有关,一般不低于80%;
Valid Rate(Valid Read Pairs/Unique Mapped Read Pairs):有效Read Pairs占双端唯一比对到基因组的 Read Pairs 的比例,该指标建议40%以上。
无参考基因组
对于没有参考基因组的情况,可以对Hi-C数据进行无参评估,常见的判断标准是酶切位点序列占测序数据的比例,该指标建议10%以上。
总之,Hi-C文库的成功构建和质量优劣直接影响了后续的分析工作。贝纳基因在Hi-C实验平台和分析平台已积累了大量植物、动物(包括哺乳动物、昆虫、水生动物等)以及微生物项目经验。对于常规样品,我们严控样品质量确保文库制备达到高标准;同时,针对一些具有挑战性的样品(例如生长老化、难以获得活体样品、个体过小等),我们会灵活调整建库策略。
最近完成的Hi-C项目统计显示,贝纳基因建库成功率接近100%,且文库质量各项指标表现优异:在近200个样本中,valid rate平均达到92.8%(通常认为在valid rate达到40%时,即可较好地满足辅助组装要求)。
图4 贝纳基因近期Hi-C实例统计
表1 贝纳基因Hi-C疑难样本有效数据展示
五、
染色体挂载
挂载流程
根据前面测序得到的Hi-C互作关系,我们可以确定有效数据中不同Contig间关联的紧密程度,从而对Contig进行聚类。例如我们可以使用软件ALLHIC通过agglomerative hierarchical clustering(自下而上的层次聚类算法),将Contig序列聚类为不同的染色体群,接着对每一个染色体群内部的Contig进行定序和定向,再通过软件3D-DNA和jucier将Contig两两之间的互作关系转化为指定的二进制文件(即.hic文件)。最后可以通过软件Juciebox对已经定序和定向的Contig进行手动定序与定向(生成.review.assembly文件)。Contig序列之间未知的序列使用N来填补,得到最终的染色体级别基因组序列。
这部分详细的流程可以参考Baylor College of Medicine & Rice University Aiden团队的Genome Assembly Cookbook,以上软件也出自于他们团队。
图5 染色体挂载流程示意图 (Burton et al., 2013)
挂载结果评估
互作热图评估是最常见和最直观的评估方式。通过将组装的染色体切割成等长Bin(特定长度的染色体片段),以两个Bin之间支持的Valid Paired-end Reads数量作为两个Bin之间互作的强度信号,构建热图。热图坐标表示各染色体的所有Bin,每个点的颜色代表相应Bin与Bin之间的互作强度,颜色越深代表互作强度越强。
从下面的热图示例可以看出,在每一染色体分组内部可以看出位于对角线位置交互的强度要高于非对角线的位置,说明Hi-C组装的染色体结果中邻近的序列间(对角线位置)交互强度高,而非邻近的序列之间(非对角线位置)的交互信号强度弱,与辅助组装的原理“对角线强互作,沿对角线垂线方向互作逐渐减弱”一致,证明挂载效果较好。
另外,我们还可以通过染色体挂载率,即挂载的contig长度/全部contig长度来评估染色体挂载结果,通常情况下,Hi-C的挂载率可以达到90%左右。高挂载率意味着更多的基因组序列被准确地定位到染色体上,这对于理解基因组的结构和功能至关重要。
贝纳基因已完成多种类型样本的基因组组装和Hi-C挂载,下表列举了近期部分项目的挂载情况,期待与您合作!
表2 贝纳基因近期Hi-C挂载项目展示
参考文献:
Lieberman-Aiden, Erez, et al. "Comprehensive mapping of long-range interactions reveals folding principles of the human genome." science 326.5950 (2009): 289-293.
Burton, Joshua N., et al. "Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions." Nature biotechnology 31.12 (2013): 1119-1125.