您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

【权威发布】Nature Methods长读长测序终极对决:ONT/PacBio/二代测序,谁才是转录组测序的王者?

image.png


英文标题:A systematic benchmark of Nanopore long-read RNA sequencing for transcript-level analysis in human cell lines

发表期刊:Nature Methods(IF:36.1)

发表时间:2025.3.13

通讯作者:Jonathan Göke(新加坡基因组研究所)


研究背景

人类基因组可转录超过 20 万种RNA分子,但由于同一基因产生的多种RNA异构体(isoform)具有高度相似性,其精确量化一直是技术难点。为系统评估不同测序技术在RNA转录本表达分析中的性能,本研究采用了五种测序技术对七种人类细胞系进行了全面分析,包括Illumina短读长cDNA测序、Nanopore长读长直接RNA测序(DRS)、Nanopore无扩增的直接cDNA测序、Nanopore有PCR扩增的cDNA测序、PacBio IsoSeq测序,系统阐述了不同测序技术在读长、覆盖度、通量和基因/转录本定量方面的差异。研究结果表明,长读长RNA测序在主要异构体识别方面具有显著优势,并基于长读长RNA测序数据构建了SG-NEx数据库,为可变剪接分析、新转录本发现、融合转录本检测及RNA修饰分析提供了宝贵资源。

image.png


图1 SG-NEx 数据集和处理流程概述


主要研究成果


1. SG-NEx 数据资源

基于Illumina短读长测序及Nanopore长读长测序,研究构建了目前最全面的长读长 RNA 测序基准数据库SG-NEx,囊括了7 种人类癌细胞系的测序数据(分别为:结肠癌细胞系HCT116、肝癌细胞系HepG2、肺癌细胞系A549、乳腺癌细胞系MCF7、白血病细胞系K562、卵巢癌细胞系HEYA8以及H9人胚胎干细胞系),每种细胞系均分别使用了四种测序技术:Nanopore直接 RNA 测序(Direct RNA)、无扩增 cDNA 测序(Direct cDNA)、PCR 扩增 cDNA 测序(PCR cDNA)和 Illumina 短读长测序(Short-read cDNA),所有实验均设置至少3个技术重复。


同时研究还加入了多组spike-in对照:包括Sequin标准品、ERCC RNA标准品、SIRV外源RNA变异体(E0和E2)以及长SIRV RNA,对应也生成PacBio IsoSeq数据。此外,数据库还额外收录了胃癌细胞系(NCC24、IM95)、头颈癌细胞系(HNI-NPC7)、HEK293T细胞系以及3例多发性骨髓瘤患者样本的测序数据,最终形成了涵盖14种细胞和组织类型、总计139个测序样本的超大规模资源库,每个核心细胞系平均测序深度达到 1.007 亿条长reads。项目数据已在GitHub上公开(https://github.com/GoekeLab/sg-nex-data/)。


2. nf-core/nanoseq 分析流程

研究开发了基于 Nextflow 的nf-core/nanoseq分析流程,该流程具备多种功能,包括质量控制、序列比对、转录本发现与定量、差异表达分析、RNA融合检测以及 RNA 修饰检测。该流程兼容Docker/Singularity及云端部署,为长读长 RNA 测序数据的分析提供了便利、高效且标准化的工具。


3. 五种测序技术性能比较

研究对五种测序技术的性能进行了比较(见下表)。在通量方面,PCR-cDNA 测序方案最高,通量接近短读长测序;而读长上,PacBio IsoSeq 最长,直接 RNA 测序次之;覆盖度方面,长读长测序在转录本的 5'和3' 端覆盖更完整,而短读长测序因 RNA 片段化存在末端覆盖偏差。此外,不同测序技术存在转录本偏好性,PCR-cDNA 测序偏向高表达基因,PacBio IsoSeq 容易忽略短转录本(<1kb),直接RNA测序则无扩增偏好。值得注意的是,与Direct RNA测序相比,PCR-cDNA 测序技术对某些基因的转录本扩增和测序并不完全。由此可见,文库构建方法对reads分布和转录本多样性鉴定有显著影响。

image.png

图2 不同RNA 测序技术的比较


4. 基因表达定量分析

通过spike-in RNA数据验证发现,纳米孔长读长数据在基因表达定量上误差最小,与预期定量结果的相关性最高,在所有 RNA 测序技术中,PacBio IsoSeq 数据的差异最为明显,这可能是由于转录本长度不均衡,其中短转录本(<1kb)的覆盖度较低。对于内源基因,长读长和短读长在蛋白编码基因的表达定量上高度相关(r>0.9)。聚类分析显示,即使采用不同技术测序,相同细胞系的数据仍能聚在一起。

image.png

图3 长读长 RNA 测序在基因表达定量方面与短读长 RNA 测序数据具有一致性


5. 转录本异构体分析

相比基因表达分析,转录本丰度定量更具挑战性,主要由于同一基因的不同转录本高度相似。对Sequin和SIRV外源RNA的系统评估发现,纳米孔长读长测序表现出优于短读长的准确性,与预期定量结果相比,长读长数据的Spearman相关系数达到0.93(短读长为0.49),且绝对误差降低40%以上。


在转录本异构体分析中,长读长和短读长测序在约13,481个基因(占65%)中表现一致,但在7,389个基因中存在差别,其中30%的短读长特异性主要异构体误将内部外显子识别为转录起始/终止位点。研究进一步选取MCF7细胞系中13个表达不一致的基因,通过qPCR和数字PCR(dPCR)进行验证,结果显示长读长数据与实验验证结果高度一致(Pearson r=0.97),而短读长数据呈现负相关(r=-0.6)。由此表明,短读长由于片段化过程会高估部分异构体的表达,相比之下长读长的结果更为可靠。

image.png

图4 与短读长相比,长读长RNA测序数据在转录本鉴定和转录本丰度定量方面更有优势


6. 可变剪接分析

研究发现平均每个细胞系中存在4,200个基因可产生多个转录本。借助纳米孔长读长测序的全长覆盖优势,研究首次在单一种类细胞水平上全面绘制了可变剪接事件图谱,最常见的可变剪接事件为外显子跳跃(40.4%),其次是可变启动子(21%)和可变末端外显子(16.8%)。此外还发现,13.2%的基因(554个)可以同时发生两种以上的可变剪接事件。同时在长读长测序检测到的外显子跳跃事件中,32.7%未被短读长数据鉴定。因此长读长测序能够解析短读长难以检测的复杂剪接模式,可为研究转录调控提供更全面的视角。

image.png

图5 与短读长特异性主要异构体相比,长读长特异性主要异构体更为可靠


7. 新转录本鉴定

研究鉴定出 1531 个新的多外显子转录本,其中 40.6% 位于未注释区域,59.4%为已知基因的新转录本。这些新转录本具有表达低、外显子数量少、转录本长度较短的特点,并且富含重复元件(如 Alu、LINE-1 等),其中12个新转录本通过RT-PCR得到了验证。由此说明长读长测序在发现新转录本方面可以补充现有注释的不足,有助于更深入地了解基因组的转录情况。

image.png

图6 七种人类细胞系中复杂转录事件、新转录本、融合转录本及m6A修饰的综合分析


8. 融合基因检测

在 6 种癌细胞系中,研究鉴定出 106 个高置信度的融合基因,其中79个(74.5%)融合基因已在Mitelman数据库或在已有短读长研究中报道过,并且研究进一步验证了MCF7细胞中鉴定到的12个融合基因。长读长测序的优势在于能够重建完整的融合转录本,平均每个融合基因产生2.3个异构体。这为癌症研究提供了高精度的融合转录本资源,有助于深入探究癌症相关的基因变化。


9. m6A RNA 修饰分析

纳米孔直接RNA测序可以鉴定RNA修饰,通过直接 RNA 测序,鉴定到 6337 个 m6A 位点,其中 59% 通过 m6ACE-seq 得到验证。m6A修饰分析结果显示,癌基因MYC在多种细胞系中均显示超高m6A修饰水平,其中部分修饰位点(12%)具有细胞类型特异性。由此说明直接 RNA 测序不仅可以分析RNA的表达及剪接,还可以同时分析RNA的表达与修饰,为研究 RNA 修饰在基因调控中的作用提供了有力手段。


总结

本研究基于五种测序技术和数据构建了SG-Nex数据库和长读长测序分析流程,并深入比较了长读长RNA测序和短读长RNA测序的差异,展现了长读长RNA测序在融合基因、新转录本和 RNA 修饰研究中的独特优势,有助于科研人员更精准地开展转录组研究,深入探索转录组的复杂机制。


参考文献:

Chen, Y., Davidson, N.M., Wan, Y.K. et al. A systematic benchmark of Nanopore long-read RNA sequencing for transcript-level analysis in human cell lines. Nat Methods 22, 801–812 (2025).

Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. 鄂ICP备2021008976号-2