Pore-C数据评估新方法与新指标:揭开多维基因组互作的奥秘
随着Pore-C技术的出现,基因组学研究迎来了强大的工具,能够揭示染色质三维结构及其复杂的互作关系。相比于传统的 Hi-C技术,Pore-C不仅能捕获更长的DNA片段,还能提供多个基因组位点的互作信息,甚至包括甲基化修饰等表观遗传信息。然而,如何充分利用这些丰富的数据进行分析和评估,仍然是一个挑战。本文将对比Pore-C与Hi-C技术,介绍一种全新的Pore-C数据评估方法,帮助研究人员更好地利用Pore-C数据揭示基因组的多维结构。
1. Pore-C与Hi-C实验流程差异
a. Hi-C实验技术
Hi-C技术是基于高通量测序的染色质构象捕获技术,通过固定染色质互作、酶切、末端修复、环化、捕获互作片段并进行二代测序,揭示染色质三维结构。其具体的实验流程如下:
b. Pore-C实验技术
Pore-C技术基于染色质构象捕获技术(3C),结合第三代Nanopore测序,能够直接测序包含多个DNA相互作用片段的长链DNA,捕捉到更复杂的染色质互作结构。其实验流程如下:
Pore-C技术的优势在于:
• 实验流程更简单,无需生物素标记和PCR扩增。
• 能直接测序多个相互作用的DNA片段,捕获**Multi-contact**信息,揭示更高阶的染色质结构。
• 可同时获得DNA甲基化等表观遗传修饰信息。
虽然Pore-C技术能够提供甲基化修饰信息,但本文的重点将放在互作信息的评估上。
2. Pore-C与Hi-C分析方法差异
2.1 Hi-C的成熟数据分析流程:
a. Raw reads过滤:与常见的二代测序数据处理类似,首先进行质量控制和过滤。
b. 序列比对:将pair-end测序的reads比对到参考基因组。
c. 定位酶切位点:通过比对结果,找到reads pairs在基因组中的物理位置,并根据插入片段大小的限制,确定酶切位点。酶切位点代表DNA相互作用的大致位置。
d. 筛选有效比对片段:选取位于酶切位点两端且方向相反的reads pairs。
示意图如下:
2.2 Pore-C的分析流程:
Pore-C数据的分析与Hi-C有所不同,主要体现在如何处理测序reads以及如何从中提取有效的互作对。
以下是一个Pore-C测序reads的示例:
a. reads示例情况:
reads总长度:5400bp
A:1200bp B:1500bp【B1:700bp和B2:800bp】 C:2000bp D:300bp【D1:120bp和D2:180bp】 E:400bp
b. 方法一:采用“先酶切再比对”的策略。
相关流程:https://github.com/epi2me-labs/wf-pore-
c.具体步骤如下:
i. 根据酶切位点将DNA片段切开,形成携带reads标签的fragments。
ii. 将这些fragments比对到参考基因组。
iii. 根据fragments对比对结果和携带的reads标签组合成pairs,再进行过滤,提取有效的互作对(pairs)。
示意图如下:
这种方法在Pore-C数据分析中存在一些局限性。由于Pore-C的测序reads较长,实际未被酶切开的片段可能在生信算法中被过度切割,导致:
• 多位点比对:多个片段比对到基因组的不同位置,增加了误判的概率。
• 比对失败:部分片段可能无法准确比对到参考基因组,降低了有效数据的比例。
pairs数据比对示意图:
这种方法在Pore-C数据分析中存在一些问题,特别是酶切位点的密度可能导致实际未被切开的片段在生信算法中被过度切割,进而导致多位置比对或比对失败的概率增加,影响最终的有效数据率。
c. 方法二:为了充分利用Pore-C的优势,我们建议了一种新的分析策略:“先比对再剪切”。
相关流程:HiPore-C pipeline
具体步骤是:
i. 先将长reads完整地比对到参考基因组。
ii. 根据比对结果确定片段的相对位置,再进行剪切为fragments。
iii. 结合fragments和酶切位点,进行过滤,提取有效的互作对(pairs)。
这种方法类似于全长转录组测序的分析方法,能够更好地利用Pore-C的长reads特性,减少多位点比对或比对失败的情况,显著提高有效数据率。
示意图如下:
d. 两种方式计算数据有效率的差异
模型示意图的计算示例:
实测数据评估:
e. 数据意义:
Mean Fragment Count,可以看出平均多少个位点在一起互作;
Mean Fragment length,可以看出平均酶切的片段长度;
Total Valid Pairs,类似二代的有效数据率,可以看出总的有效互作数,以及效率占比;
Mean Valid Pairs Length,可以看出有效互作对的平均长度;
Contacts/Reads比,即Valid Pairs / Total Pairs,可以看出平均每条Reads提供的有效互作数目;
Valid Size/Total Size,可以看出测序数据的有效利用率;
3. 总结
Pore-C相比Hi-C具有显著的优势,尤其是在测序片段长度方面。每条Pore-C测序reads能够提供更多的互作信号,因此不能采用“先酶切再比对”的策略方法来评估Pore-C数据。该方法会显著低估Pore-C的Total Valid Pairs占比,无法充分展示Pore-C在多维互作方面的优势,而“先比对再剪切”的策略方法恰恰可以弥补这个不足,做到对Pore-C互作信息的准确评估。
此外,在追求Pore-C reads的N50或平均长度时,我们也需要注意,长度越长并不总是意味着Mean Fragment Count越多。有时,片段长度较大可能只是因为酶切后的片段较大。因此,在质控Pore-C数据时,使用基于比对的方法能够更加有效,同时结合Mean Valid Pairs Length和Contacts/Reads比,可以更好地评估数据的有效性。
Pore-C技术为基因组三维结构研究带来了前所未有的机会。相比Hi-C,Pore-C不仅能够捕捉到更长的DNA片段,还能够提供更多的互作信息。然而,传统的Hi-C分析方法并不适用于Pore-C数据的评估。我们提出的新分析方法能够更好地利用Pore-C的长片段优势,显著提升有效数据率,并为研究人员提供更丰富的基因组互作信息。