您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

NC项目文章|DRS技术新突破:TandemMod深度学习工具解锁7种单碱基RNA修饰

 
图片

 

英文标题:Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing

发表时间:2024.5

发表期刊:Nature Communications

IF:16.6

通讯作者:杨俊/王红霞(上海辰山植物园)/余祥(上海交通大学)

 

研究介绍

 

随着高通量测序技术的快速发展,目前已发现多种RNA修饰类型,如N6-甲基腺苷(m6A)、5-甲基胞嘧啶(m5C)、假尿苷(Ψ)等,在RNA稳定及翻译调控等方面发挥着重要作用。尽管纳米孔直接RNA测序(Direct RNA Sequencing,DRS)技术为RNA修饰的研究提供了新的工具,但在单个数据中同时检测多种修饰类型仍然存在困难,而已有方法如MeRIP-Seq、miCLIP等通常需要抗体或化学处理,且在同时检测多修饰类型方面也存在局限性。

 

为了应对上述挑战,本研究开发了一个能够准确检测多种RNA修饰类型的深度学习模型,TandemMod,其结合迁移学习算法,实现了性能和精度的大幅提升,并在多种数据及生物样本中得以验证。本研究全方位展示了TandemMod在不同情况下识别DRS数据中多种RNA修饰(m6A, m1A, m5C, 5hmC, m7G, I 和Ψ)的优越性能,为RNA修饰研究提供了高效可靠的工具,进一步推动了对表观转录组复杂景观的深入理解。武汉贝纳基因在该项研究中参与了Direct RNA测序工作。

 

研究结果

 

1. RNA修饰引起碱基水平和电流水平特征发生变化

已有研究表明,纳米孔测序过程中RNA修饰的存在会导致电流信号的波动,造成碱基识别质量和特征发生改变,因此提取电流信号的均值、中位数、标准偏差以及信号长度等多种特征可以用于识别碱基修饰。作者使用ELIGOS数据集(一个体外转录数据集),计算6种修饰碱基(m1A、m6A、m5C、hm5C、m7G和Ψ)的单碱基特征,并将其与未修饰的碱基进行比较,结果表明,所有这些修饰类型均导致特异性单碱基水平电流特征的变化(图1a)。例如,与给定5-mer motif中相应的未修饰碱基相比,m5C、hm5C、m6A、m1A和m7G的平均值和中位数信号显著增加;hm5C、m5C、m1A和Ψ的碱基质量显著降低,同样的,存在修饰样本的reads质量也有所下降(图1b)。

 

纳米孔测序中原始reads可能存在错误,需要根据电流波形曲线与参考序列匹配来获得对应单碱基的电流信号,然而电流信号长度却不尽相同。因此作者采用样条插值法进行信号重采样,获得相同长度的信号后检测修饰碱基及其相邻碱基的电流强度的变化(图1c)。对每个5-mer序列产生的重采样信号进行UMAP降维分析,发现具有修饰和未修饰碱基的代表性5-mer序列倾向于分布在不同区域(图1d)。由此表明RNA修饰与电流水平和碱基水平特征的显著变化有关,并且可以利用这些特征进行修饰的准确识别。

 

图片

图1:RNA修饰引起碱基水平和电流水平特征发生变化

 

2. 使用TandemMod从单碱基水平检测RNA修饰

基于前述对修饰碱基引起电流特征变化的分析,作者开发了一个深度学习模型TandemMod,用于RNA修饰的鉴定和预测(图2a)。为了探究TandemMod在鉴定m5C和m6A修饰的性能,作者首先在Curlcake数据集(一个包含所有可能的5-mers体外转录序列衍生的DRS数据集)进行模型训练和预测,结果显示,随着reads长度的增加,模型的性能逐渐提高(图2b)。除了鉴定修饰类型之外,TandemMod还可以预测修饰概率。采用概率阈值策略,分别单独对Curlcake数据集和ELIGOS数据集在reads水平的修饰概率进行预测,结果表明修饰碱基的预测概率接近1,而未修饰碱基接近0(图2c),表明大部分预测高度可信;而对两个数据集中的m5C数据同时采用概率阈值,设置0.1/0.9的成对的概率阈值则使得两个数据集的ROC-AUC指标均有所提升(图2d)。

 

图片

图2 a~e:RNA修饰引起碱基水平和电流水平特征发生变化

 

3. TandemMod模型与其他工具的性能比较

RNA分子的修饰水平是动态变化的,并且在不同实验条件和样本中往往存在巨大的差异。从ELIGOS数据集中随机抽取含有m5C的reads,生成具有不同修饰程度的DRS数据,将TandemMod与tombo和xPore进行比较,分析TandemMod在识别不同修饰水平样本的表现,结果显示TandemMod在低比例和高比例修饰样本中均能够识别出m5C位点,并且预测结果更接近真实情况,表现出优于tombo和xPore的性能(图2e)。随后,针对m6A修饰的检测方面,将TandemMod模型与tombo、nanom6A及m6Anet进行了对比分析,结果显示,在鉴定RRACH motif和DRACH motif方面,TandemMod明显优于其他工具(图2g~h)。由此表明,通过体外DRS数据集训练的TandemMod模型在现有工具中可以提供最为准确的reads水平的修饰预测。

 

TandemMod模型通过引入两步截止策略,有效降低了假阳性率,以此确保修饰检测的准确性。使用不同m5C修饰比例的混合样本来测试TandemMod检测单碱基分辨率的性能,TandemMod表现出与实际情况相符的变化趋势(图2f)。尤其是在预测低至中等水平修饰位点时,模型预测极为接近真实值。以上说明TandemMod在确保低假阳性率情况下,能够有效提高预测精度。

 

图片

图2 f~h:TandemMod模型与其他工具的性能比较

 

4. 体外转录组数据集可以提高TandemMod的预测准确性

如前所述,用于修饰检测的DRS训练集可以使用从体外合成转录的RNA或体内RNA转录本,鉴于体外合成转录的RNA可能缺乏序列多样性,因此作者使用包含T7启动子的水稻cDNA文库进行测序(图3a),构建了四个DRS训练集(包含m1A、m6A、m5C和未修饰),作为体外表达转录组数据集(IVET)。IVET数据集不仅保持了较高的测序质量,分别在不同样本检测到背景丰富多样的转录本(图3b),还显著提高了序列多样性和测序深度,尤其是在分析较长的k-mer(如7-mer和9-mer)方面(图3c)。为了构建能识别m1A、m6A和m5C修饰的模型,作者从IVET数据集中提取了2473个共有基因的特征,用于构建一个能够反映序列背景复杂性的训练集。模型训练结果表明,该模型在IVET测试集上ROC-AUC指标可以达到0.90~0.95,且通过采用概率阈值优化策略,性能改善更为明显(图3d~f)。将TandemMod模型分别测试不同设备平台生成的数据集,结果均表现良好,说明TandemMod模型可用于不同设备平台产生的DRS数据。此外,还在IVET和Curlcake训练集上分别训练TandemMod模型,并比较它们在ELIGOS数据集上的性能,基于IVET数据集训练的m6A模型比基于Curlcake数据集训练的模型,在性能上均有提升(图3g~h)。综上所述,使用体外转录组数据集进行训练,可以显著提高TandemMod的性能。

 

 

图片

图3:体外表达转录组数据集可以提高TandemMod的预测准确性

 

5. TandemMod结合迁移学习可以用于检测多种类型RNA修饰

研究表明迁移学习作为新兴的机器学习算法,兼具效益和效率,已被用于计算机视觉和自然语言处理。本研究尝试将迁移学习用于DRS数据分析中,通过从IVET m5C数据集中获得一个预训练模型,并保持预训练模型的顶层参数不变,仅针对ELIGOS训练集(hm5C、m7G、Ψ和I)在模型的底层进行再训练,以减少分类误差(图2a)。经过2轮迭代后,各模型的准确率实现了显著提升,ROC-AUC指标均可达到0.95或以上(图4a~d)。此外,性能定量结果显示,与从头开始训练相比,迁移学习每轮训练的时间显著缩短(图4e),同时将预训练模型适应新数据集时,所需额外的训练数据显著减少,而模型性能不受影响(图4~g),表明迁移学习不仅能减少计算资源和数据需求,还能保持高标准的准确性和效率。

 

图片

图4:TandemMod结合迁移学习可以用于检测多种类型RNA修饰

 

6. TandemMod修饰检测应用于人类细胞系中及其性能验证

为了测试TandemMod模型是否适用于真实生物样本的DRS数据,作者使用该模型对野生型(WT)和RNA甲基化转移酶METTL3敲除(KO)HEK293T细胞的DRS数据进行了m6A位点鉴定。结果显示,在转录本水平和单碱基水平上,m6A相对于未修饰的A(m6A/A)比例均有显著降低(图5a~b)。TandemMod预测了NNANN序列中的A位点,并且在WT样本中发现被鉴定为m6A修饰的位点富含典型的DRACH motif(图5c)。此外,预测的最普遍的m6A motif是GGACT,与m6Anet结果一致。着重关注已知的ACTB转录本的位点1216和BSG转录本的位点1339,根据TandemMod预测,ACTB转录本位点1216的m6A/A比例在野生型和METTL3-KO样本中分别为50.8%和7.7%。而BSG转录本位点1339的m6A/A比例分别为73.1%和15.8%(图5g)。将TandemMod模型应用于多种人类癌症细胞中m6A修饰位点检测(图5h~l),其预测结果与DRACH motif一致,进一步验证了TandemMod模型的可靠性和准确性。

 

以K562细胞系的MeRIP-seq peak作为参考标准,从K562的DRS数据中分别提取RRACH和DRACH motif,随后与nanom6A和m6Anet进行比较。结果显示,TandemMod在RRACH motif和DRACH motif上的ROC-AUC指标均优于nanom6A和m6Anet(图5m~n)。在m5C位点检测方面,TandemMod同样表现出色,它可以同时鉴定到在RNA甲基转移酶NSUN2-KO样本中,reads水平和碱基水平上显著降低的m5C/C比值(图5d、e),并且差异m5C位点附近存在UA 序列的富集(图5f),与已发表的亚硫酸氢盐测序结果一致。总之,前述结果证明了TandemMod在不同物种和多种组织背景下准确识别修饰位点的的优良性能。

 

图片

图5:TandemMod修饰检测应用于人类细胞系中及其性能验证

 

7. TandemMod揭示水稻的多种RNA修饰

为了探究水稻中RNA修饰的分布特征,及其对环境胁迫的响应机制,本研究对高盐处理及正常条件下的水稻样本进行纳米孔Direct RNA测序,并使用TandemMod模型来识别两种条件下的m6A、m5C和Ψ修饰。在对照组中,TandemMod成功在多个基因上鉴定出的不同修饰位点(图6a),其中大多数基因存在1~4个修饰位点,并且这些位点的鉴定结果通过m6A-seq数据进行了验证,进一步确认了其准确性。

 

将在IVET和Curlcake数据集上训练的模型预测的前几个m6A位点与m6A-seq数据进行比较以分析实际性能,发现与Curlcake数据集相比,由IVET训练的TandomMod预测的m6A位点得以验证的比例更高(图6b),证明IVET中序列复杂性确实可以提高TandemMod在生物样本中的表现。而与m6A-seq相比,TandemMod提供了单碱基水平的预测结果(图6c),使其可以更精确地识别和鉴定水稻转录组中真实的RNA修饰位点。

 

水稻转录组中,预测的m6A位点富集在DRACH motif中(图6d左),预测的m5C位点显示出UA富集(图6d右)。基于所有鉴定的motif进行TandemMod模型训练和预测,结果表明m6A倾向分布于终止密码子和3'UTR临近区域(图6e左),而m5C倾向分布于起始密码子临近区域(图6e右)。

 

随后,作者探究了在正常条件下哪些基因倾向于形成同时含有m6A和m5C修饰的转录本,在鉴定到的高可信度修饰mRNA中,2394个基因同时含有m6A位点和m5C位点。进一步分析每个基因的转录本中m6A和m5C共存的情况,发现同时含有一个m6A和一个m5C的转录本最为普遍,例如LOC_Os03g52840.1基因和LOC_Os03g20700.1基因(图6h~i)。进一步分析不同条件下的修饰位点差异,并对含有m6A和m5C修饰的基因进行GO富集分析,发现其主要富集于与胁迫响应相关的生物过程中(图6f~g)。

 

图片

图6:TandemMod揭示水稻的多种RNA修饰

 

研究总结

 

本文全面展示了TandemMod模型在RNA修饰检测方面的高效与准确度,并结合多种测试数据及真实数据进行了综合验证。TandemMod模型的开发和应用,不仅证明了深度学习方法在处理高维度以及高复杂性生物数据上的优越性,还探究了如何利用迁移学习来拓展模型的应用场景,由此可以显著提升RNA修饰分析的精度和效率,促进DRS技术在单碱基水平深入解析多种RNA修饰,进而促进了对表观转录组复杂调控机制的深入理解。

 

参考文献:

Wu Y, Shao W, Yan M, et al. Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing[J]. Nature Communications, 2024, 15(1): 4049.

 


Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. Designed by 鄂ICP备2021008976号-2