Science Bulletin项目文章|Nanopore宏基因组分析软件基准测试及分析流程EasyNanoMeta发布
英文标题:Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics
发表时间:2025.03.20
发表期刊:Science Bulletin
影响因子:18.8
2025年3月20日,扬州大学兽医学院王志强团队与中国农业科学院深圳农业基因组所刘永鑫团队在国际知名期刊《Science Bulletin》合作发表了题为“Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics”的最新研究成果。该研究系统评估了纳米孔宏基因组数据分析过程中关键分析工具的性能及计算效率,并开发了专门用于纳米孔宏基因组数据分析的工作流程——EasyNanoMeta。
贝纳基因为该项目提供ONT宏基因组测序支持。
研究背景
纳米孔测序技术凭借其产出超长测序读长的优势,极大的推动了微生物组研究进程。这项技术不仅能够精准解析复杂的微生物基因组结构,还可以通过重建高质量宏基因组组装基因组(MAGs)深入探索微生物组的多样性、功能及其相互作用。同时,它还能直接从测序reads中读取宿主信息,非常适合研究基因的水平转移、复杂遗传结构以及病原微生物的致病机制。然而,随着纳米孔宏基因组测序数据量的快速增长,如何高效从这些测序数据中挖掘有效的生物学信息成为一大挑战。现有的许多工具虽然能够应对纳米孔测序数据的不均匀分布和高错误率等特点,但目前尚缺乏对这些工具的系统性性能评估,且研究人员很难在多种数据分析软件中做出正确的选择。为了应对这些挑战,本研究通过收集和系统评估现有的分析工具,并针对物种分类、组装、纠错和分箱等关键步骤进行了基准测试,为研究者提供了最优的工具选择指南,同时,作者开发了EasyNanoMeta,一款专门设计用于纳米孔宏基因组数据分析的集成化流程,大大降低了纳米孔宏基因组数据分析难度。
主要研究成果
1. 纳米孔宏基因组基准测试
在物种分类准确性评估中,作者使用采用ZymoBIOMICS(包含十种微生物的模拟群落)测序数据及基于NanoSim生成的两种合成数据集(均匀分布“Even”和对数正态分布“Log”)评估了Centrifuge和Kraken2的性能。结果表明,Centrifuge的分类准确性(Precision、Recall、F1-score)和微生物丰度估算均优于Kraken2,是处理长读长数据的首选工具(图1)。

图1 分类器、数据库和参数对模拟纳米孔宏基因组数据物种分类精度的影响
在组装分析基准测试中,作者使用了多种数据集,包括模拟数据、人类肠道、动物肠道和环境样本数据,进行了不同组装工具的性能测试。发现MetaFlye在组装全面性和完整性方面表现最佳,同时在计算效率和资源消耗上也具有显著优势,适合大规模长读长宏基因组数据分析。对于混合组装工具,OPERA-MS(基于MEGAHIT)在资源消耗方面表现最优(图2)。
短读长数据通常用于对长读长组装结果进行纠错,以提高其准确性,在纠错工具的评估中,NextPolish仅需1小时即可完成结果纠错,而Pilon耗时超过12小时,体现了NextPolish的高效性,更适合大规模宏基因组分析。基于混合策略的组装中,基于SPAdes的混合组装策略能够生成更全面的组装结果,尤其是在环境样本数据中。此外,OPERA-MS(基于SPAdes)在生成长contigs方面表现优异。
在分箱分析中,SemiBin相比vamb能够重建更多高质量和中等质量的MAGs;而NextDenovo和SemiBin的组合虽然能够生成更长的contigs,但会导致许多MAGs的丢失。相比之下,MetaFlye与SemiBin的组合生成了数量最多的MAGs。在混合组装策略下,MetaBat2和SemiBin始终在所有测试数据集中提取出更多高质量的MAGs。综合考虑计算资源和MAGs质量,推荐使用OPERA-MS_SPAdes与MetaBat2的组合,或在资源有限的情况下选择OPERA-MS_MEGAHIT与MetaBat2的组合。
测序深度对宏基因组组装和分箱结果有显著影响。通过对动物肠道数据集的不同测序深度进行分析,我们发现随着测序深度的增加,组装的contigs数量和规模有所增加,但contig N50和最长contig在达到一定深度后出现下降趋势。此外,高质量MAGs的数量并未随测序深度的增加呈现一致性增长。这表明,无限制增加测序深度不仅难以带来额外的高价值数据,还将显著增加测序和计算成本。
在对Mock数据集的分析中,作者发现长读长组装加上短读长数据纠错能显著提高MAGs的准确性,并修正单碱基错误,提升基因预测的准确性。未纠错的长读长MAGs通常存在较多错误基因预测,而混合组装和短读长纠错则显著改善了这一问题。因此,为了准确研究MAGs中的基因功能,需对长读长组装进行数据纠错。综合来看,高完整性和低污染的MAGs虽可通过长读长组装获得,但若缺乏后续纠错处理,其在基因功能分析中的适用性有限。

图2 宏基因组组装与分箱性能及计算资源消耗评估
2. EasyNanoMeta分析流程介绍
根据基准测试分析结果,作者开发了EasyNanoMeta(https://github.com/P-kai/EasyNanoMeta),一个集成且易于使用的纳米孔宏基因组数据分析流程(图3)。EasyNanoMeta 具有模块化和高度灵活性的特点,支持多种分析功能,包括物种分类分析、功能分析、宏基因组组装、纠错和分箱。与该团队之前开发的 EasyAmplicon 类似,它提供了两个主要脚本用于工具安装和数据分析,并附有详细的文档和示例数据集以指导用户。此外,EasyNanoMeta 使用了基于 Singularity 的容器,确保了在不同计算环境下软件的兼容性和可重复性。为便于数据分析,EasyNanoMeta 提供了两个核心脚本:(1)easynanometa.py:执行整个数据分析流程; (2)easynanometa2.py:允许用户在 EasyNanoMeta.sif 容器内调用单个工具进行数据分析。最后,该流程将持续迭代,整合最新的纳米孔数据分析工具,并淘汰过时工具,以保持其前沿性和有效性。

图3 EasyNanoMeta流程概览。该流程包括数据质量控制(如碱基识别、过滤及宿主序列去除)和两种主要策略:无组装分析和基于组装分析。
3. EasyNanoMeta使用策略介绍
Nanopore宏基因组主要分为以下2种分析策略。
总 结
本研究对当前的分析工具进行了基准测试分析,并开发了全面的纳米孔宏基因组分析流程。此外,作者根据工具性能和计算效率提出了分析方法及工具选择建议。然而,纳米孔测序技术正快速发展,尤其是准确性方面的提升,可能导致现有工具和流程更新或替代。当前,开发高效且具先进算法的工具将至关重要,以应对日益增长的大规模纳米孔宏基因组数据分析需求。
参考文献:
Peng, Kai, et al. "Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics." Science Bulletin (2025).