您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 公司资讯 >

Nature Biotechnology| 纳米孔测序技术、生物信息学及应用综述详解

2021年11月8日,美国俄亥俄州立大学(Ohio State University)区健辉(Kin Fai Au)研究组在Nature Biotechnology(IF=54.9)在线发表关于目前使用较为广泛的Nanopore测序仪的综述论文Nanopore sequencing technology, bioinformatics and applications。该文章对2014年起Nanopore第一款测序仪MinION问世以来所发表的较为具有代表性的论文进行总结,详述了关于Oxford Nanopore Technology测序仪(以下简称ONT)的测序原理、技术特点、进步发展、生物信息学工具以及应用方向等,文章共引用论文343篇,可在文末点击阅读原文,获得原文信息。

图片
 

纳米孔测序技术基于纳米级的蛋白质孔(简称纳米孔)作为生物传感器,并嵌入到绝缘的高分子膜中,通过在高分子膜的两端施加恒定的电压而产生电流,带负电荷的单链DNA或RNA分子就会从分子膜的带负电一侧(cis)被驱动到带正电的一侧(trans)。核酸链在纳米孔中的迁移速率由马达蛋白控制,在核酸链‘过孔’时,不同碱基基团引起的不同电流变化被纳米孔中的信号接收器所读取,再根据计算算法进行相应的碱基识别工作。马达蛋白除了控制核酸链通过纳米孔速率的作用之外,还具有解旋酶活性,使双链DNA或RNA-DNA双链解旋为单链分子通过纳米孔。

图片

图1 纳米孔测序原理

 

1. 纳米孔设计

纳米孔进行测序的概念最早出现于20世纪80年代,α-溶血素蛋白(α-Hemolysin,一种来自金黄葡萄球菌的跨膜蛋白,内径为1.4nm~2.4nm)是第一个可以读取DNA及RNA链通过纳米孔时引起电流变化信号的蛋白,经过对野生型α-溶血素蛋白进行人工改造,使得其可以实现对4种不同DNA碱基基团进行区分。MspA蛋白也具有相似的表现。随后通过加入DNA聚合酶(phi29 DNA聚合酶)来控制核酸链通过纳米孔的速率完美跨越了实现纳米孔测序的最后一个障碍。

2012年2月,两个研究组分别展示了使用α-Hemolysin和MspA两种不同蛋白作为纳米孔,结合phi29 DNA聚合酶,使得单链DNA分子可以分解成单个核苷酸的信号进行基因测序。与之前表现不佳的DNA过孔实验相比,马达蛋白的加入降低了核酸链过孔时的速率不稳定问题,从而提高了数据质量。在同一个月,ONT发布了首个纳米孔测序设备MinION。ONT在2014年向早期用户发布了MinION,并在2015年将其商业化。

图片

图2 ONT测序技术的发展历程

 

ONT测序,通过持续不断的研发工作,至今共发布了8款不同版本的纳米孔及适配的马达蛋白:R6(2014年6月),R7(2014年7月),R7.3(2014年10月),R9(2016年5月),R9.4(2016年10月),R9.5(2017年5月),R10(2019年3月)和R10.3(2020年1月)。随着R9.4版本的纳米孔与其适配的马达蛋白的出现,ONT测序达到了更高的准确度(85~94%)以及更快的测序速度(450bp/s)。但是由于R9.4及R9.5芯片使用的纳米孔蛋白CsgG(来自于大肠杆菌的一种跨膜蛋白突变体)可以一次性容纳五个碱基基团,导致其很难准确读取同聚物区域的基因序列,随后ONT公司推出了每个纳米孔配备两个信号读取器的R10以及R10.3版本的芯片从而解决此问题。

图片

图3 ONT测序的建库流程

 

2. 其他提供准确率的策略

进行纳米孔及马达蛋白的研发之外,ONT公司还尝试从方法学提高测序准确率。先是推出了2D建库方案,将一条双链DNA的一端连接上具有发夹结构的接头上,在测序时其中一条单链DNA(模板链)先进行测序,随后经过‘发夹接头’对另一条单链(互补链)进行测序。在去除‘发夹接头’序列后,模板链和互补链(1D序列)生成一个共有序列(2D序列)。在2017年5月,ONT公司经过进一步研发发布了1D2的建库方案及R9.5芯片。与2D建库不同的是,1D2建库方案未使用发夹结构的接头相连,而是在每条单链上连接了一个特殊的接头,使得DNA双链有极高的概率(>60%)在一条链(模板链)被测序后另一条链(互补链)被同一纳米孔所捕获。通过该方法ONT测序的平均准确度达到了95%。目前对于DNA测序,ONT只支持1D的建库方式,即dsDNA的每一条链都连上机头,并独立测序。值得一提的是,在本文章发布前,2021年5月的ONT公司London Calling大会上发布了全新的Q20+试剂方案,用户生成的原始序列数据准确读高于99%。与芯片和试剂更新的同时,算法的发展也对ONT测序准确度提供了很大帮助,例如最新的bonito算法,帮助ONT测序准确度,在同样的芯片和试剂下提升了2~5%的准确度。

3. 更长的读长

而相对于准确度来说,ONT测序由于其电信号测序的原理在测序读长上则更具有优势。2018年报道了单分子测序读长达到了2.273MB(最新更新的数据为4.2MB)。但是其读长的关键取决于核酸提取步骤,目前已经有许多较为成熟长片段DNA提取试剂盒,比如Biolab的Monarch Genomic DNA Purification kit、Takara Bio的NucleoBond HMW DNA kit,QIAGEN的MagAttract HMW DNA kit。在长片段DNA提取的同时,由于小片段DNA分子具有更快的过孔速率和更高的接头连接效率的特性,去除小片段DNA分子对于得到高产出数据量也至关重要。针对于此目前也有较多成熟方案,例如BluePippin、磁珠分选、Circulomics的Short Read Eliminator kit等。

4. 直接RNA测序

作为全球唯一可以进行RNA直接测序的技术,RNA测序也是目前ONT用户涉及比较多的应用方向。该测序方法需要特殊的文库制备工作,先将引物连接到RNA分子的3‘端,然后在无需反转录的情况下直接将接头连接。同时除了RNA直接测序之外,ONT测序也可以进行RNA-cDNA杂交链的测序。前者由于其速度极快更适合于紧急状况的应用(新冠病毒基因组),而后者则可以得到更高的数据产量。
 

图片


5.不断提升的通量和设备

为满足不同客户、不同应用场景的不同数据量需求,ONT公司发布了多种设备、芯片及试剂盒。其数据量的产出主要影响因素包括:1.纳米孔活性 2.核酸在纳米孔中的过孔速度 3.持续运行的时间。

在早期MinION刚发布时,早期用户使用ONT测序仪通过一张MinION芯片仅能产出几百兆(MB)数据,目前该数值增长到10~15GB(目前达到30GB)。而测序速度也从之前的30bp/s增加到了如今的450bp/s(R9.4芯片),且兼顾了更长的运行时间。升级款设备PromethION则拥有24~48个独立运行的测序通道,单张PromethION芯片的数据产出量为153GB(目前162GB)。相比之下由于RNA直接测序的过孔速度较低,其单张MinION芯片的数据产出只有1~3GB。
 

图片

图4 ONT测序数据的分析

 

6.数据分析

除了设备及实验方案的研发,ONT数据的生物信息学分析方法也在不断地进行着升级。基于ONT测序独特的电信号数据而使用的碱基识别、碱基修饰检测、组装后纠错等方面的软件一直持续的被开发及应用。由于ONT测序不需要太高配置的计算资源以及复杂的基础数据处理能力,使得许多实验室可以独立运行使用。

MinKNOW是ONT特有的控制软件,通过设置测序参数、实时监控测序状态来控制ONT测序仪,同时MinKNOW还可以监控数据产生以及简单的实时分析。fast5为ONT测序所特有的电信号数据,以前版本的MinKNOW每条read都会产生一个fast5文件(single-fast5),后续版本为多条reads输出为一个fast5文件(multi-fast5)以满足日益增长的测序速度。在测序实验中,ONT测序仪还可以同时输出原始的fast5文件以及经过碱基识别的fastq文件,这极大的增加了用户在数据分析时的灵活性。

 

图片

图片
 

除了官方发布的ONT软件之外,目前第三方的用于质量控制、格式转换、碱基修饰分析、纠错、基因组组装、结构变异分析、转录组分析等开源软件也大量发布,如上表所述。
 

图片

图5 ONT测序的应用

 

7. 广泛的应用

ONT设备的超长测序读长、便携性以及可进行RNA直接测序等众多优势使得其具备广泛的应用方向,作者统计了自2015年以来发表论文数量最多的11个应用方向,如上图,包括:

1.完善参考基因组(人、大肠杆菌、拟南芥等)

2.构建新的参考基因组(新冠病毒等)

3.基因大结构变异鉴定(急性骨髓白血病患者)

4.全长转录本及复杂转录事件研究(人类全长环状RNA测序)

5.表观遗传标志物研究(使用ONT测序来绘制组蛋白修饰H3K9me3和H3K27me3、组蛋白变体CENP-A)

6.RNA修饰检测(m6A、m5C、m7G,结合ONT直接RNA测序和人工化学修饰来探测RNA二级结构)

7.肿瘤相关研究(ONT测序已被应用于许多癌症类型,包括白血病、乳腺癌、脑癌、结肠直肠癌、胰腺癌和肺癌,以识别基因组变异,特别是大型复杂的)

8.传染性疾病(由于ONT的快速实时测序能力和便携性,其已被用于快速病原检测,包括细菌性脑膜炎、细菌性下呼吸道感染、感染性心内膜炎、肺炎和假体关节感染的诊断等)

9.遗传性疾病(阿尔兹海默症、A型血友病、自闭症、Ia型糖原累积病、高雪氏病以及多种免疫失调疾病)

10.疫情监测(便携式的ONT测序仪可以对新出现的传染性疾病进行现场和实时的基因组检测,协助进行流行病学调查)

11.多种野外现场应用(ONT测序仪由于其对环境要求低、携带使用方便的特点,已经使用于包括冰川、潜艇、雨林等环境中直接进行宏基因组测序。)

 

8. 展望

ONT测序仪通过其便携实时的提供单分子DNA/RNA的超长读长测序,使得许多生物医学研究成为了可能。然而目前ONT测序仍然存在一些需要改进的地方,如准提升准确度、降低核算样本需求量等。克服这些挑战需要ONT在分子实验以及生物信息学软件上取得突破。未来是否可以通过使用石墨烯基质的非生物纳米孔进行DNA检测?这种材料的纳米孔具有高耐久性、绝缘能力以及其厚度(~0.35nm)是捕获单个核苷酸的理想材料。另一种方案是对同一分子进行重复测序,通过将DNA分子重新捕获到同一个纳米孔或者使用多层纳米孔对每个分子进行多重测序可能提高数据的准确性。目前ONT数据的超长读长仍然是其主要优势,进一步增加读长将会促进基因组组装和难以分析的基因组区域(如真核生物着丝粒和端粒)的测序。一旦读长达到一定范围(可以覆盖整个染色体)基因组组装就变得触手可及,只需要很少的计算资源且可获得更高的完整性和准确性。组装地球上的数百万种物种的全基因组也将成为可能。另一个仍可以进行改进的地方是降低ONT测序所需的DNA和RNA投入量。希望未来随着实验体系的不断开发、更加强大的生信分析软件的出现,能够进一步推动ONT测序的应用,最终将技术由实验室走入日常生活中。真正实现其使任何人在任何地点能对任何物种进行测序的目标。

 

参考文献:

Wang et al., Nanopore sequencing technology, bioinformatics and applicationsNature Biotechnology. 2021.

Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优