Research progress in MinION sequencing technology and its application
在过去10年中, 第二代测序技术(second-generation sequencing, SGS)为基因组学奠定了坚实基础, 完全可以担负起人类全基因组测序工作[1-4]。虽然SGS带来了巨大的技术变革, 但是也存在着一系列问题, 如:仪器昂贵、数据的处理分析费用较高、读长短等。近几年出现了第三代测序技术(next-generation sequencing, NGS)——纳米孔测序仪(MinION), 早在1996年就有报道使用纳米孔作为生物传感器的想法, 基于对这些概念研究, 2012年牛津纳米孔技术公司(ONT)公布了首个高通量测序平台MinION, 并于2014年4月启动了MAP(MinION access programme)计划, 借此评估该新型仪器的性能和质量, 并将其应用于多个研究领域[5-7]。
1 MinION测序仪原理 MinION进行测序时需要测序芯片Flow Cell, 每张芯片上有512个传感器, 每个传感器上连接4个纳米孔, 总计2 048个纳米孔, 并由专门的集成电路控制。MinION当中的核心部件是由蛋白质构成的小孔, 我们称它为"Pore", 这个蛋白质插在一层电阻率很高的薄膜当中, 薄膜的两侧都浸没在含有离子的水溶液中, 在薄膜的两侧加上不同的电位, 离子就会通过蛋白质小孔, 从膜的一侧移动到膜的另一侧, 小孔当中就会有电流通过, 当DNA的单链通过这个小孔时, 就会对离子的流动造成阻碍, 不同的碱基造成的阻碍大小不一样, 因而不同的碱基所造成电流大小的波动就会被记录下来, 然后将其存储在本地硬盘[8-10]。当测序产生1条read时, 就会储存一个FAST5格式文件, 随后用生物信息学方法提取目的信息, 也可以使用相应的脚本进行测序和碱基识别, 并下载产生的标准格式, 例如FASTA和FASTQ[11-13]。
MinION有3种不同的建库方式:(1)1D库仅使用引导接头, 在进行测序时, DNA双链被解成单链后随接头通过纳米孔实现测序。(2)2D建库是同时使用引导接头和连接双链DNA分子的发夹接头, 在测序过程中, 首先是马达蛋白把双链DNA解螺旋成单链, 引导接头连接模板链通过纳米孔, 紧接着发卡接头连接互补链通过。(3)1D2库是目前使用比较广泛的1种建库方式, 它区别于2D建库是并未使用发卡接头。当模板连测序完成后, 纳米孔会捕获互补链的马达蛋白进行互补链测序。1D库的优点是建库便捷, 耗时较短; 2D库是可以获得更长读长; 1D2库是对模板连和互补链同时测序而得到高质量的一致性序列[14-15]。
2 MinION的优势 相对于其他测序平台, MinION具有简单便携、超长读长、低成本设备及实时数据测序监控等优点, 该设备的特点极大地推动了MinION技术被广泛应用于各种领域。虽然就当前形势来看第二代短读长测序技术在全球测序市场仍然占有较大的优势地位, 但随着第三代测序技术的出现, 基因组研究、疾病医疗研究、现场病原检测等领域产生了巨大变革[16-17]。
2.1 简单便携 MinION最令人兴奋的特点是它体积小巧和具有通过笔记本电脑驱动操作的能力, 使得研究人员能够设计完成以往在现场不可能完成的实验, 解决在生物材料运输受到物理条件或法律限制时而遇到的困难。以往我们需要收集样本并将其速递到测序中心进行测序, 现在可以将测序仪带到现场进行样本的检测以获得更快的结果[11]。2014-2016年西非地区暴发严重的埃博拉疫情, 严重威胁人们的生命, 并对全世界的公共卫生带来严峻考验。在疫情暴发期间, 对病毒的基因组进行测序显得尤为重要[18]。对比中国公共卫生团队在塞拉利昂建立SGS测序平台, Quick等[19]快速建立MinION基因组监测实验室, 所需的所有仪器和消耗品都装在 < 50 kg的飞机行李箱内, 然后飞往几内亚。在那里数以百计的样本被排序、编号和分析, 随后研究人员对埃博拉病毒进行详细的进化分析, 加速了疫情问题的解决。后来该技术团队于ZiBRA合作使用MinION方法对巴西的寨卡病毒病疫情进行监测[20-21]。
MinION技术又遇到了新的挑战, 在热带雨林[22]、南极干谷[23]、国际空间站[24]等地, 由于运输、伦理和实验条件等限制, 样品无法在设备完善的实验室进行测序, 此时MinION的优势显得尤为突出[9]。2016年Edwards等[25]将MinION带到北极高海拔冰川对微生物群落进行测序, 发现MinION测序结果与Illumina测序结果一致; 另一团队在南极洲干谷使用MinION测序[23]; 美国宇航局(NASA)在国际空间站进行的鼠类和大肠埃希菌等测序, 该测序结果显示, 失重对测序没有影响, MinION测序的数据质量和输出量无明显下降, 然而此次成功测序的前提是提前准备好文库, 在太空中准备文库可能是一个更大的挑战[24]。由此可见病毒暴发期间, 通过该技术获得的前瞻性基因组数据有助于提供该病毒与其他病毒的亲缘关系、进化模式、地理分析和人类宿主等信息, 在结合使用其他类型的数据(例如病例数)时, 这些信息可用于协助流行病学调查, 并为研究病毒传播和变异提供有效信息[26]。
2.2 读取(Reads)长度长 读取长度长是MinION另一大特色, 一般>100 kb。然而最近的研究成果显示, MinION的测序系统可以一次性获得最大读长为882 kb, Pacific Biosciences的测序系统一般读长>10 kb, 对比第二代测序Roche公司454技术的平均读长400 bp, MinION的测序优势巨大[27-28]。据文献显示, 此次使用MinION共获得91.2 GB的数据量, 理论上覆盖了大约30次。研究人员建立的操作步骤获得了超长读长, 这些超长读长外加了5倍覆盖率, 基因组装配的连续性提高了1倍, 整个基因组数据实际组装出来的碱基数为28.67亿个, 覆盖了人类基因组的85.8%, 准确性超过99.8%[15]。Michael团队报道在实验室使用MinION技术可从每张PromethION测序芯片获得约109 GB数据, 通过优化来同时获得高产数据和长读长片段, 测序获得的所有基因组平均读长长度为10~20 kb, 读长N50为15~30 kb, 最长读长约为1.5 mb。目前该团队每周可生成约1 TB的测序数据, 运行12~16个样本以达到在100 d内测序100个基因组的目标。对于结构复杂并且GC含量较高的病毒基因组以目前的第二代测序技术很难满足测序要求, 2016年Timokratis等[29]通过对Roche 454和MinION的reads组装成功测得了长达152 kb的人类疱疹病毒Ⅰ型基因组。
2.3 快速、实时测序监控 在临床研究方面, 对DNA/RNA序列实时测序分析非常重要, 传统的测序技术很难达到要求, 对于MinION技术来说相对简单, 它只有巴掌大小, 操作简单, 测序时单分子穿过纳米孔, 通过电流变化进行实时检测和识别[5]。当DNA单链通过纳米孔时, 如果电流变化与目标序列变化趋势相同, 则通过纳米孔, 反之则不通过。通过这种方式实现目标序列的富集, 可以减少测序时间, 对现场和快速诊疗有重要意义[9]。多组研究团队使用纳米孔技术, 在几分钟内就可以准确鉴定基孔肯雅病毒、丙肝病毒、结核分枝杆菌和肠病毒等病原体。采用MinION检测显示, 在急性出血热患者的血液样品中检测到了埃博拉病毒, 数据采集耗时不到3 min, 从取样到获得结果总耗时仅4 h[26, 30-33]。美国农业部研究机构发表的针对非洲猪瘟病毒首个结合样品富集、MinION以及新型快速分析软件的报告, 实现了对该病毒基因组序列的真正实时测序[34]。Wang等[32]建立了MinION针对肠道病毒的检测方法, 利用重复扩增子测序在6 h内平均每分钟产出大约3 000条reads。肠道病毒71型毒株的单样本检测中, 1 min内MinION输出数据与Sanger法的一致性为98.5%, 14 min内高达99.0%。可见MinION的快速性是其他测序无法达到的。
3 纳米孔测序的应用 相对于其他测序技术, MinION技术对样本的要求极其简单, 不需要DNA聚合酶、连接酶及dNTPs, 因此它的检测价格非常低廉, 更有可能实现1 000美元的基因组测序目标[10]。MinION在病原体检测与分型、宏基因组、微生物16S~18S rRNA基因组测序等领域均得到广泛的应用。
3.1 在病原体检测与分型中的应用 在虫媒传染病方面, 蚊虫是重要的传播媒介, 但由于其本身的载毒量低, 极大地限制了蚊媒病毒的检测。Batovska等[35]直接提取白纹伊蚊(Aedes albopictus)RNA, 通过MinION和MiSeq对cDNA进行测序, MinION成功测得罗斯河病毒基因组全长, 测序准确率达98%以上。美国Russell等[36]使用相似方法, 对采集到的20只库蚊样本混合后进行现场测序, 准确检测到委内瑞拉马脑炎病毒。该研究仅需要MinION、核酸提取设备等在现场即可完成对样本测序和物种鉴定。在一项英格兰公共卫生署(PHE)的研究中, Kafetzopoulou等[37]利用MinION直接从基孔肯雅病毒、登革病毒和拉萨热病毒临床样本中使用Oxford Nanopore的快速测序试剂盒进行10 min的文库制备后, 即在共同感染样品中检测到基孔肯雅病毒和登革病毒。这些研究为现场快速生物检测的实现提供了可能。
2018年Hansen等[38]使用MinION在5 h内完成了对7种口蹄疫病毒(foot and mouth disease virus, FMDV)血清学分型。该团队在40 min内使用MinION完成了样本测序和数据分析, 共获得12 193条序列, 通过质控去除后得到7 372条序列。随后通过与提前准备好的离线数据库进行对比, 分型的准确度可达到98.3%。由此可见, MinION技术在不依赖复杂实验室条件的情况下, 可在野外迅速部署开展实验, 在流行病暴发期间更易使用。同年尼日利亚拉沙热疫情暴发时, 研究者对36例临床样本进行MinION现场实时测序分析, 确定该毒株大多为拉沙热病毒Ⅱ型和Ⅲ型, 系统发育树显示2种病毒亚型均存在啮齿动物中, 推测该疫情为人畜共患病, 排除了拉沙热病毒在人群中大规模传播的可能, 因而通过控制啮齿动物、环境和卫生来防治疫情[39]。
3.2 在宏基因组测序中的应用 宏基因组学是以环境中包括细菌、病毒、真菌等在内的全部微生物作为整体进行研究, 它能够对微生物群落基因组成、微生物多样性、基因功能、微生物与宿主或环境之间的联系等多方面进行解读。当使用第二代测序技术进行宏基因组学的研究时, 由于测序读长较短将会导致一些基因信息丢失。然而第三代测序可以更好地解决这一问题, 真实的反映群落构成和基因功能甚至发掘新的功能基因。KilIanski等[40]利用MinION在3 h内对委内瑞拉马脑炎病毒、埃博拉病毒完成毒株水平鉴定。从临床样本获取到结果展示, Greaninger等[41]在6 h内完成了宏基因组测序。当然2次宏基因组测序都存在一些局限性, 如毒株经过预先培养、检测病毒滴度较高等, 但这并不影响MinION技术在宏基因组测序方面的优势。除了病毒培养物和临床样本, 在蚊虫体内病毒的直接宏基因组测序方面, MinION共输出82 259条reads, 目的病毒的reads有229条, 占总数量的0.28%。在所有的229条reads中, 32.3%的数据产生于1 h前, 87.3%的数据在10 h内获得, 这说明MinION在进行病毒检测时, 可以在实时测序监控的前期即可得到检测结果[35]。
2019年Charalampous等[42]使用纳米孔技术对下呼吸道感染病原体进行宏基因组测序, 该方法从样品到结果仅需6 h, 对病原体检测的敏感性为96.6%、特异性为41.7%, 同时可检测抗生素抗体基因, 最后结合荧光定量PCR和特异性基因, 特异性和灵敏度增加至100%, 可见MinION宏基因组测序技术可以快速准确地检测细菌性下呼吸道感染, 对于减少抗生素的使用起到了促进作用。宏基因组测序对于样本中病毒的载量有极大的要求, 较多的非目的reads降低检测的灵敏度, 同样增加生物信息学分析的难度。由于MinION在进行临床样本宏基因组测序时, 大批量宿主的基因组序列很容易被检测到, 这其中会涉及到患者的隐私情况, 因而在公开数据时要注意是否符合伦理道德委员会制定的科学方针[43]。
3.3 在微生物16S、18S rRNA基因组测序中的应用 16S rRNA基因存在于所有原核生物的基因组中, 基因长度约为1.5 kb(18S rRNA基因存在于所有真核生物基因组中, 基因长度为1.5~2.0 kb), 16S rRNA基因上不同的高变区在一定程度上代表了不同微生物间的进化差异, 因而可以借此进行细菌种属的分类鉴定, 目前16S、18S rRNA是进行微生物种属鉴定的重要标志。第二代测序由于读长较短只能获得1~2段高变区域, 很难达到精细的分类鉴定和群落多样性研究, 相反MinION技术的超长读长且允许设计的引物覆盖整个16S基因, 甚至整个核糖体操纵子, 因而MinION使病原体鉴定具有更高分类分辨率。Cuscó等[44]利用MinION对葡萄球菌样本的16S和rrn测序, 结果与正确物种比对, 相似度分别达到68.0%和98.0%, 随后研究者使用多位点方法和MinION对模拟样本进行16S扩增子测序时, 共获得380万条序列, 重建了90.0%以上的16S rRNA基因序列, 该团队再次使用MinION对犬类皮肤微生物群落16S rRNA基因测序, 结果发现了新的细菌门类。
目前RNA病毒的基因组研究大部分是反转录为cDNA后再进行测序, 2017年Smith等[45]直接对大肠埃希菌全长16S核糖体RNA进行测序, 全过程从采样到出结果仅需2 h。结果展示, 在16S rRNA的已知位点鉴定出7-甲基鸟苷, 并且发现了包括假尿嘧啶核苷在内的表观遗传修饰的存在。2019年Leggett等[46]采用无DNA纯化而直接用PCR方法从细菌细胞悬浮液中扩增出16S rRNA基因, 并且设计了一套简单的工作流程, 通过MinION技术快速鉴定细菌, 减少从样品到结果产出的时间, 提供了一种可应用于临床检测环境的可靠方法。因此第三代测序技术相对于以往的测序技术在研究微生物系统发育、分类鉴定等方面更加快速、细致、简便。
4 展望 现如今, 第二代测序技术已经相当成熟, MinION测序技术发展迅速, 对比第一代和第二代测序技术, 纳米孔技术测序读长超长、实时数据监测、简单便携等特点占有巨大优势。从单分子测序角度来说, 以PacBio SMRT和MinION为代表的测序平台应用越来越广泛使用, 涵盖了病原体、临床微生物、农业和环境等众多领域。但MinION相对于其他测序技术更具有颠覆性, 在短短的数年时间内, MinION的测序数据量已从数十MB增加到1~2 GB, 准确度从60.0%上升到90.0%。在测序偏移方面, 如GC含量, 它允许在以往从未有的准确性和分辨率基础上去探索结构变异。就目前MinION的特性来说, 相对较小的生物信息实验室也可以使用相对应的程序进行基因组结构变异的研究。MinION的另一大优势在于对疫情现场病原体的快速检测, 尤其是ONT公司开发的快速检测试剂盒, 仅需10 min就可以完成文库的制备, 极大地节约了检测时间。
MinION作为一种新型的测序技术同样存在不足, DNA单链通过纳米孔是随机的, 再加上离子阻碍电流信号, 致使错误率难以控制, 因而需要与成熟的测序技术联合使用以提高准确率[13, 47]。另外, 虽然MinION可以对RNA进行直接测序, 但对RNA的上样量要达到500 ng, 且具有3' polyA结构, 而且准确度也有待提高。在我们进行蚊媒病毒检测时, 对得到的测序数据进行Epi2ME平台识别时, 结果会出现未添加的Barcode类型, 可见目前对第三代测序的数据分析开发并不如第二代完善, 仍需开发更高效的计算方法。
随着平台和分析工具的不断发展与完善, MinION也推出了更加高通量的版本, GridION X5一次性可以运行5个测序芯片, PromethION最多可装载48个3 000通道的测序芯片, 由于这2种高通量仪器的出现, 使得MinION数据可以用于研究更大的基因组结构, 因此MinION将来会具有日益广阔的应用前景。