针对 Pore-C 测序的最新集成化分析流程:PPL-Toolbox
三维基因组架构对转录调控等基础生物学过程至关重要,传统技术(如 Hi-C)仅能解析成对染色质相互作用,难以捕捉多向染色质互作的复杂网络。Pore-C 技术结合染色体构象捕获与纳米孔长读长测序,可有效捕获全基因组多向染色质接触,已应用于人类、牛、拟南芥等多个物种的研究。基于Pore-C 技术的优势和应用,越来越多适用于 Pore-C 数据的分析与标准化工具出现。近期,华中农业大学作物遗传改良国家重点实验室李国亮教授团队将一项相关成果发表在期刊Briefings in Bioinformatics上,该成果公布了一款专为 Pore-C 数据设计的综合分析流程——PPL-Toolbox,该工具的Java 软件包可在 GitHub 上公开获取(https://github.com/versarchey/PPL-Toolbox)。

题目:Pore-C Pipeline-Toolbox: a comprehensive pipeline for Pore-C data analysis
发表期刊:Briefings in Bioinformatics
发表时间:2025年8月27日
影响因子:7.7
研究结果
开发了PPL-Toolbox端到端的分析流程,能够从原始的 Pore-C 测序数据出发,经过比对、分类、去噪和质量控制等一系列步骤,最终产出高质量的多向染色质互作图谱、单倍型分辨率的互作网络及丰富的可视化结果。

图1 PPL-Toolbox 工作流概述
具体来说,其核心方法与对应成效如下:
1. 比对与分类方法 → 提升数据准确性与敏感性
方法:采用 Minimap2 进行初步比对,并创新性地引入基于MAPQ、片段位置和酶切信息的三重分类标准,同时利用罚分优化算法解决多重比对冲突。
成效:在模拟数据上,该流程实现了最高的多向接触提取准确率(最高达99.73%),并在真实数据中展现出更小的映射边界误差,证明了其比对与分类策略在提升数据精准度方面的优势。
表1比对结果的分类标签及含义

2. 超图去噪方法 → 有效抑制随机连接噪声
方法:将多向接触建模为超图,利用团扩展算法和85%分位数频率阈值来识别并移除由随机连接产生的不可靠互作。
成效:去噪后,数据中跨染色体互作的比例显著降低,更接近真实的生物学分布,且互作热图的对比度和结构特征清晰度显著增强,表明在去除噪声的同时完好地保留了真实的生物学信号。

图2 使用 PPL-Toolbox 对多向接触进行去噪
3. 数据质控方法 → 量化评估实验数据质量
方法:通过定义 BOTH、CLOSER 和 DVD 等“边缘距离”指标,定量评估由孔堵塞引起的测序中断误差。
成效:成功区分了不同实验方案的数据质量,证明 HiPore-C 协议能更有效地缓解孔堵塞(DVD中位数:15 vs 68),为评估和优化实验流程提供了客观指标。

图3 在 PPL-Toolbox 中实施的数据质量评估方法
比较 BOTH、CLOSER 和 DVD 在各染色体上的表现
4. 单倍型定相方法 → 实现高比例的单倍型分辨率图谱
方法:利用杂合SNP,并结合距离、桥接和优势单倍型三步填补策略,对片段进行单倍型来源推断。
成效:成功对超过53%的片段进行了单倍型定相,比例远高于Hi-C。并成功复现了父源X染色体失活导致的单倍型特异性3D结构(如超域和超环),验证了其在解析等位基因特异性染色质结构方面的能力。

图4 使用 PPL-Toolbox 生成单倍型分辨率的接触图
5. 可视化方法 → 直观展示复杂互作网络
方法:开发 MultiVis 工具,支持多向互作与多组学数据(如ATAC-seq, ChIP-seq)在基因组浏览器中的协同可视化,并整合聚类与降维分析。
成效:以 PAX5基因区域为例,清晰揭示了多向互作在增强子枢纽处的富集现象,直观地展示了复杂的增强子-启动子互作网络,为功能解析提供了强大工具。

图5 用 PPL-Toolbox 实现数据可视化
研究小结
开发了一款功能全面、优化高效的 Pore-C 数据专用分析流程 ——PPL-Toolbox,实现从原始数据到多向互作解析、质量评估、可视化的全流程分析,推动多向 3D 基因组学研究的进展。
参考文献:
Wang, Zhenji et al. “Pore-C Pipeline-Toolbox: a comprehensive pipeline for Pore-C data analysis.” Briefings in bioinformatics vol. 26,4 (2025): bbaf435. doi:10.1093/bib/bbaf435
027-62435310 |
service@benagen.com |
