工作空间

文章信息

李沛翰, 李鹏, 宋宏彬
宏基因组学在传染病防控中的应用进展
生物技术通报, 2018, 34(3): 43-52

LI Pei-han, LI Peng, SONG Hong-bin
Application of Metagenomics in Prevention and Control of Infectious Diseases
Biotechnology Bulletin, 2018, 34(3): 43-52

文章历史

收稿日期:2017-09-19

宏基因组学在传染病防控中的应用进展
李沛翰, 李鹏, 宋宏彬     
解放军疾病预防控制所,北京 100071
摘要:新发突发传染病暴发给全球公共卫生防控带来严峻挑战。快速识别致病病原体是应对新发突发传染病的首要问题,传统病原检测方法难以应对已知变异较大病原或未知病原,基于高通量测序的宏基因组学研究给病原识别鉴定带来了新的方法和思路。核酸提取、高通量测序和数据分析等关键技术方法不断发展,使宏基因组学成为新突发传染病防控的重要研究方向。宏基因组学可对传染病防控中的多种类型样本进行直接测序,获得高通量的测序数据,并结合病原核酸数据库,通过序列比对、变异进化分析等生物信息学方法,通过监测可疑样本对疫情暴发进行预测预警;识别传染病患者感染致病病原,为临床诊治提供指导;构建病原系统发育关系,追溯疫情潜在感染来源,最终实现新突发传染病病原的快速识别、分型、耐药及溯源分析。宏基因组学作为一项新兴技术,在传染病防控领域具有巨大潜力和发展空间。通过对宏基因组学在传染病病原监测、检测及溯源等方面的应用进展进行综述,以期为传染病防控提供新的视角。
关键词宏基因组学    传染病防控    高通量测序    
Application of Metagenomics in Prevention and Control of Infectious Diseases
LI Pei-han, LI Peng, SONG Hong-bin     
Institute of Disease Prevention and Control of People's Liberation Army, Beijing 100071
Abstract: The outbreak of new infectious diseases poses a serious challenge to global public health prevention and control.Rapid identification of pathogens is the primary challenge in dealing with outbreaks emerging infectious diseases. It is difficult to detect unknown pathogens or pathogens with large mutations using traditional pathogen detection methods. Metagenomics based on high-throughput sequencing has shed light on the pathogen detection and identification. Nucleic acid extraction, high-throughput sequencing, data analysis and other key technologies continue to develop, making metagenomics become an important research direction for the prevention and control of new infectious diseases. Metagenomics can direct sequence many samples of the prevention and control of infectious diseases to obtain high-throughput sequencing data. It can combine the pathogenic nucleic acid database, through sequence alignment, mutation evolution analysis and other bioinformatics methods in to use. In this way, we can monitor the suspicious samples of the epidemic outbreak forecast and warning, identify pathogens and provide medication guidance, determine the phylogenetic relationship, trace the origin of the pathogen and investigate the epidemic. Ultimately, we can realize the target of rapid identification, typing, drug resistance and traceability analysis of the new outbreak of infectious diseases. As a new technology, metagenomics has great potential and development prospects in the field of prevention and control of infectious diseases. This article reviews the application of metagenomics in the pathogen detection, detection and traceability of infectious diseases in order to provide a new perspective for the prevention and control of infectious diseases.
Key words: metagenomics     prevention and control of infectious diseases     high throughput sequencing    

近年来,严重急性呼吸综合征冠状病毒(Sever acute respiratory syndrome coronavirus,SARS-CoV)、中东呼吸综合征冠状病毒(Middle East respiratory syndrome-related coronavirus,MERS-CoV)、埃博拉病毒(Ebola virus)、甲型流感病毒H7N9亚型(Influenza A virus subtype H7N9)等新发突发病原体造成的传染病疫情给公共卫生防控带来严峻挑战。2002年国内暴发了严重急性呼吸道感染疫情,初期病原体难以确定给疫情防控带来极大困难。直至2003年4月,研究人员明确病原为SARS冠状病毒,并制定针对性的诊断方法和预防措施,疫情才得到有效控制。此次疫情先后蔓延至37个国家,共导致约8 000人感染和774例死亡,造成了巨大的经济损失和社会恐慌[1-2]。因此在应对公共卫生突发事件,尤其是新发突发传染病时,快速准确识别致病病原对制定疫情防控策略至关重要。

传统病原检测以分离培养、显微镜观察、血清学诊断及PCR等方法为主,存在诸多问题。分离培养方法适用于少数可培养微生物,但目前仅不足1%的细菌可以通过这种方式进行鉴定[3];显微镜观察从形态学上进行鉴定,但灵敏度较低[4];血清学诊断容易出现交叉反应,特异性差[5];PCR方法无法检测未知病原和变异较大病原[6]。基于传统实验室检测,目前高达40%的肠胃炎和60%的脑炎临床病例无法有效确定致病病原[7-8]

20世纪90年代,Handelsman等[9]首次提出了宏基因组(Metagenome)的概念,其泛指环境样本中所有微生物基因组的总和。随后宏基因组学(Metagenomics)被定义为将现代基因组学技术应用于直接研究自然状态下的微生物群落,避免在实验室单独分离微生物的科学[10]。宏基因组学研究广泛应用于土壤、水体等环境样本,以及与人类疾病相关的微生物群落的生物多样性分析。此外,由于宏基因组学无需单独对病原分离培养,通过核酸提取纯化可以直接分析临床样本,其为传染病病原尤其是未知病原检测提供了新的技术手段和思路[11]

本文对宏基因组学的技术进展及其在病原监测、检测和溯源等公共卫生领域的应用进行了综述,旨在为传染病预防和控制提供参考和新视角。

1 宏基因组技术进展

宏基因组学以样本中所有核酸为研究对象,随着各类技术的不断发展,宏基因组学逐步走向成熟,并且在核酸提取、高通量测序和数据分析等方面均有较大发展空间。

1.1 核酸提取

临床样本包含多种微生物,且非核酸杂质多,核酸提取的效率和纯度相对较低,核酸提取是宏基因组研究的关键步骤。根据研究目的和样本差异,选择合适的提取方法得到高质量核酸有利于后续病原的鉴定分析。

细菌结构差异会给测序结果带来较大影响。研究表明使用研磨珠裂解法比酶裂解法获得更多双歧杆菌核酸,并导致结果中梭菌属和放线菌群组成差异[12]。20世纪90年代的几项研究表明细菌的16S rDNA序列是病原体发现和鉴定的重要依据[13-14],早期的宏基因组学以16S rDNA测序为主,常用来分析样本中菌群分布特征。16S rDNA扩增子测序采用通用引物扩增,引物选择至关重要。Marchesi等[15]对两种引物进行比较发现,63f-1387r引物能比27f-1392r扩增得到更多的物种。通过测试175个引物和512个引物对,Klindworth等[16]发现仅有10个引物能扩增较多种微生物,但这些引物对古细菌扩增效果差,仍需进行额外引物设计。高变区(V区)的选择策略不同也会造成结果差异。Claesson等[17]发现V6区域可变性高,有利于分析物种多样性,但V4区域比V6区域获得更高准确度。

相比原核和真核生物,病毒基因组较短,其在临床感染样本中丰度较低,且与多种其它类型生物核酸混杂,如何排除干扰提取浓度较高的病毒核酸对于宏基因组研究至关重要。Thurber等[18]提出了使用SYBR-Gold试剂染色,实时监测处理样品中病毒颗粒的数量,浓缩来自各种类型样品的病毒颗粒,消除污染细胞和游离核酸。此外,对于研究某一生态群落的病毒,可使用随机PCR进行扩增,其关键点在于需要针对某一病毒群体如呼吸道病毒、肠道病毒等设计通用引物。对于DNA病毒核酸富集提取采用CTAB法、氯仿抽提法等,前者使用十六烷基三甲基溴化铵(Cetyl-trimethylammonium bromide,CTAB)溶液提取,并通过“三合一”溶液(酚﹕氯仿﹕异戊醇=25:24:1)等步骤实现病毒DNA的提纯[19];后者则采用十二烷基磺酸钠(Sodium dodecyl sulfonate,SDS)和苯酚-氯仿萃取,最终实现样本DNA病毒的提取[20]。RNA病毒核酸提取常采用Trizol法,该方法使用异硫氰酸胍、苯酚和氯仿形成三相溶液,进一步通过分离中间相和有机相中的DNA和蛋白质,然后可沉淀得到水相中的病毒RNA[21]。此外,大量商业化试剂盒和自动化制备仪器的出现,使病毒核酸提取更加方便快捷,如专门纯化提取RNA病毒的试剂盒QIAamp Viral RNA Mini Kit,以及自动化核酸提取工作站Qiagen BioRobot 9604等[22]

1.2 高通量测序

受限于测序技术,16S rDNA扩增子测序早期使用Sanger法,随后出现基于焦磷酸测序方法的商业化测序平台454,其通量比传统Sanger法高,在16S rDNA高变区测序和病原鉴定中具有广泛的应用[23]

随着高通量测序技术的发展,Illumina与Ion Torrent测序平台作为第二代测序平台主导,与454相比其成本大幅下降,在宏基因组测序中展示出巨大潜力。研究显示Ion Torrent PGM测序速度比Illumina MiSeq更高,且能比MiSeq获得更高的读长,但是MiSeq的覆盖度较高[24]

二代测序需要对样本进行建库及扩增,初始样本中的物种丰度差异导致扩增后出现高丰度物种覆盖过高和低丰度物种覆盖不足的情况。临床样本包含多种复杂微生物,数据分析受到读长限制,较长读长能够使组装更加准确。PacBio等三代测序平台采用单分子测序技术,无需扩增DNA分子即可测得基因序列,并且读长更长,有效弥补了二代测序的局限性。PacBio对16S rDNA的准确度和覆盖度都较低[25],但通过改进可直接测得16S rDNA全长,准确度可由之前的80%提高到99%[26]

1.3 数据分析

宏基因组学数据分析内容包括扩增子测序分析以及全基因组测序分析。扩增子测序首先生成操作性分类单位(Operational taxonomic unit,OTU),之后进行物种群落和多样性分析,包括Alpha多样性、Beta多样性分析和系统发育分析等[27]。全基因组测序产生海量数据,涉及大量不同物种,数据分析难度大,主要包括数据的拼接组装、基因预测、功能注释等[28]。基因组装(Genome assembly)将测序得到的碱基片段经过拼接和组装得到较长片段碱基序列,目前针对第二代测序技术,主流算法是基于图论的de Bruijn Graph(DBG)算法[29];基因预测一般用于预测DNA序列中编码蛋白质氨基酸序列的部分,即预测结构基因,目前有基于序列相似性和基于统计学模型的两种预测方法[30];在进行基因预测之后,将基因或蛋白序列在特定的数据库中搜索比对,从而完成功能注释分析。

目前已有专门用于宏基因组分析的流程化软件和工具,如QIIME[31]、MEGAN[32]等,但分析计算量巨大,通常依赖于大型高性能计算平台,可以部署在高性能计算机上,并可在完成拼接、比对等高计算要求后,将结果传输到个人电脑进行后续进化、聚类、生物多样性等分析。也可以利用宏基因组云计算平台,如IMG-M(http://img.jgi.doe.gov/m[33],Galaxy(http://g2.bx.psu.edu[34]和MG-RAST(http://metagenomics.anl.gov/[35]等进行常规宏基因组分析,通过在线储存、定位进行数据共享,使海量资源得到充分利用。宏基因组测序数据中包含多类物种,通过算法优化来解决海量数据快速分析问题,如Li等[36]开发的针对宏基因组大数据量的快速聚类算法,这类生物信息学分析工具极大促进了宏基因组的发展。

2 宏基因组在传染病防控中的应用

基于高通量测序的宏基因组学可以得到样本中全部物种的基因组,从而能同时识别所有致病病原体,极大减少逐个排除可疑病原所耗费的时间及人力物力,并可对未知病原或已知变异较大病原进行识别,为传染病防控带来新的思路。目前,宏基因组在公共卫生监测、病原检测以及传染病溯源等方面得到了广泛应用。

2.1 病原监测

采集某一地区或人群的临床样本、食品和媒介生物等各类样本进行宏基因组学测序,监测潜在致病病原,对可能出现的疫情进行预测预警,可有效预防突发公共卫生事件发生。

宏基因组能够克服传统方法的局限性,实现病原的高精度识别,为日常病原监测提供指导。Fischer等[37]收集了24例季节性流感患者支气管肺泡灌洗液、痰液和咽拭子样本,实时定量PCR结果显示H3N2和H1N1呈阳性,但不能进一步分型,通过宏基因组测序并与已报道的基因组比对,能精确其具体型别,而且在部分样本中发现其它病毒或细菌的混合感染。此外,对特定症候人群进行病原监测,能预测传染病暴发,并对出现相似症状的患者预警。研究者使用波多黎各、刚果、加利福尼亚等地区急性发热病人的血液样本,未分离培养直接提取核酸后进行测序,分别检测到基孔肯雅病毒,埃博拉病毒和丙型肝炎病毒,并且使用PCR验证结果[38]。一项研究使用宏基因组监测呼吸道疾病,采集210例患者鼻咽抽吸样本,提取核酸后分别进行DNA和RNA建库测序,在样本中检测到副黏病毒科、正黏病毒科和小RNA病毒科等多种病毒,发现一种新型鼻病毒,收集这些临床样本信息能建立预警机制,在出现异常时能快速判断可能造成疫情的病原微生物,防止新突发传染病的发生[39]

随着全球化贸易的发展,病原借助于食品进行传播的风险加大,食品监测日益重要,但受限于检测范围,不能完全排除食物携带病原的可能性。Temmam等[40]通过对进口动物肉制品进行宏基因组测序,检测到冠状病毒、黄病毒、痘病毒、汉坦病毒等可能感染人类的病毒,表明其可能存在致病风险。Ng等[41]对墨西哥湾捕获的12只健康北方粉红虾进行宏基因组检测,在样本中发现了诺达病毒和一种新型的环状单链DNA病毒,需要对食品可能造成的病原传播提高警惕。宏基因组对食品的病原监测有助于阻止病原体从境外流入和扩散,预防食源性传染病的发生。

相同策略的宏基因组研究方法也可监测媒介生物,评估病原体感染人类的可能性,预防人畜共患病发生。为评估野生老鼠携带病毒对人类的致病风险,研究者采集了德国柏林地区20只野生老鼠的肠道提取物样本并进行测序,检测到博卡病毒、沙波病毒、诺瓦克病毒和轮状病毒等多种病原,其中的轮状病毒株与人类致病密切相关[42]。Coffey等[43]对澳大利亚蚊子进行研究,分别提取其DNA和RNA进行深度测序,检测到罗斯河病毒、黄病毒、环状病毒等多种潜在致病微生物,这对于预防虫媒传染病,防止其大规模暴发具有重要意义。

2.2 病原检测

不明原因疾病和未知病原增加了临床诊断难度,无法进行有效治疗,导致患者病情加重甚至死亡。通过测序样本,并结合传统实验室诊断方法进行验证,宏基因组学在病原检测中发挥日益重要的作用。

宏基因组检测能够得到病原全部基因信息,在更深入的层次上探究病原感染原因。研究显示,埃博拉病毒治愈后,病毒抗体可在体内持续至少10年,复发几率极低[44]。一名埃博拉患者治愈出院9个月之后出现复发症状,用PCR检测到了埃博拉病毒,但是不能确定是原病毒还是新变异病毒的感染。为了研究再次感染的原因,研究者采取病人脑脊液和血清进行宏基因组测序,检测到的序列与初次发病的序列仅有两个非编码区的变化,调整治疗方案后患者病情好转[45]。这项研究重新说明了埃博拉病毒具有复发的可能性,不能停止对埃博拉康复患者的检测,这对于疫情治疗和控制具有重要作用。

2011年德国暴发了急性肠出血性流行病,疫情初期没有特异性手段检测病原感染,而分离培养耗时长且比较困难。在对此次疫情进行回顾性研究中,Loman等[46]采用宏基因组检测方法,采取40例疫情暴发期间的产志贺毒素型大肠杆菌(STEC)阳性粪便样本,并使用5例STEC阴性腹泻样本作为对照,未经分离培养直接提取DNA进行测序。于STEC阳性患者的样本中检测到该疾病的致病菌株STEC O104:H4,并且进一步检测到产志贺毒素的基因片段,在5例对照组中也检测到了艰难梭菌、空肠弯曲杆菌和沙门氏菌的感染。表明了宏基因组使用非培养样本检测病原体并分析其毒力的潜力。

2007-2010年河南暴发了发热伴血小板减少综合征(Fever,thrombocyte-penia and leukopenia syndr-ome,FTLS)疫情,初始使用反转录PCR、PCR和免疫荧光血清学分析检测了黄病毒科、日本脑炎病毒、披膜病毒科等可能微生物,均未能确定致病病原。Xu等[47]收集了285例患者的急性期血清样本,之后将未分离培养的样本直接进行宏基因组测序,检测到了一种新型病毒序列,通过比对和系统发育分析发现其与已知布尼亚病毒科具有遗传相似性,是布尼亚病毒科白蛉病毒属的新成员。随后根据测得的基因序列设计引物进行PCR检测,以及使用免疫荧光血清学分析,结果均呈阳性,并对患者血清进行病毒分离培养,成功分离出此病毒,最终确定了导致此次疫情的就是新型布尼亚病毒。

德国一名患者出现急性呼吸窘迫综合征(Acute respiratory distress syndrome,ARDS)的症状,使用PCR和分离培养方法检测流感病毒、腺病毒、肺炎支原体、肺炎衣原体等多种病原均为阴性,使用抗生素治疗无效,患者在6日后死亡。当第二例相同症状患者出现时,Fisher等[48]使用宏基因组方法,采集患者的支气管肺泡灌洗样本,提取核酸后进行二代测序,在50 h内快速确定了致病病原是鹦鹉热衣原体,随后根据基因序列设计引物,使用PCR验证了检测结果,并对患者进行针对性的抗生素治疗,患者病情减轻。第三例患者曾与第二例患者进行接触,并出现同样症状,推测是第二例患者导致的感染,采用前述抗生素治疗后患者迅速好转。宏基因组对不明原因疾病患者的诊断,有助于及时求治患者,并为后续患者的诊断治疗提供指导。

病毒、细菌和真菌等多种病原微生物均可引起脑膜炎,逐一排查可疑病原体费时费力。北京协和医院4例患者临床诊断为疑似病毒性脑膜炎,通过测序2例患者脑脊液样本,检测到单纯疱疹病毒1型(HSV-1),另外两名患者样本中检测到单纯疱疹病毒2型(HSV-2)和人类疱疹病毒3型(HHV-3),并随后通过PCR对其中3例进行确认[49]。2014年北京3例脑膜炎患者被诊断为疑似李斯特菌感染,但对样本进行细菌培养发现结果为阴性,研究者对患者的脑脊液进行了直接测序,检测到李斯特菌序列,并利用PCR进一步验证,确认是李斯特菌引起的感染[50]。以上研究表明宏基因组具有检测罕见病原感染的能力,基于测序的快速诊断对于应对未知原因且致命的脑膜炎感染至关重要。

器官移植患者容易发生异常感染,宏基因组方法能够确定感染患者的致病病原。一名2岁男孩在干细胞移植后出现高烧,红疹和全身皮肤变黑等症状,使用分离培养和PCR检测可疑病原均为阴性,常规抗生素治疗均无效,Ye等[51]对患者血液样本进行二代测序,检测出痤疮丙酸杆菌感染,并在临床治疗上调整抗生素治疗方法,患者迅速好转。三名患者接受同一位捐赠者的肝移植或肾移植,捐赠者之后因脑出血死亡,三名接受者也先后因脑病死亡,推测可能由病原感染造成。使用分离培养和PCR方法检测疱疹病毒、狂犬病毒、呼吸道合胞病毒、腺病毒、弓形虫、结核杆菌等病原体,均未检测到致病病原。Palacios等[52]采取捐赠者和接收者脑脊液、血液、肾脏、肝脏等样本,提取RNA进行测序,检测到一种新型沙粒病毒,随后设计引物进行PCR、分离培养和血清学检测,均证实了结果。此外,一例12岁患者在肾脏移植后出现发烧、畏寒、身体疼痛等症状,使用PCR和血清学检测一系列病原均为阴性,研究者通过对脑脊液样本进行宏基因组测序,检测到了西尼罗病毒的序列,在进行针对性治疗后患者迅速好转,并在恢复期检测到西尼罗病毒抗体,证实了西尼罗病毒的感染[53]。值得关注的是,在病人急性期使用血清学检测西尼罗病毒,可能由于免疫抑制作用,结果呈现假阴性,并且由于脑脊液中西尼罗病毒的反转录PCR敏感性较差,未使用反转录PCR检测西尼罗病毒。宏基因组方法在此情况下发挥作用,说明其具有较强的病原检测能力。

此外,许多新型病原可导致临床病例,难以通过传统微生物技术进行检测,而宏基因组测序使发现新病原成为可能。一名澳大利亚儿童的急性腹泻样本在使用分离培养、免疫学诊断、PCR等方法检测后,轮状病毒、星状病毒、腺病毒和常见细菌等病原体结果均为阴性。Holtz等[54]采用宏基因组方法直接从粪便样本提取RNA进行测序,发现了一种与已知柯萨奇病毒相似的序列,通过系统发育分析发现其基因序列不符合纳入现有物种的标准,推测其为柯萨奇病毒属内新的物种并命名为Human Cosavirus E1(HCoSV-E1)。虽然这些病毒的流行和临床意义目前未知,但这些病毒可能对人类健康产生影响,而宏基因组检测能够帮助了解这些病毒的免疫和发育信息并为预防和控制带来新思路。

2.3 病原溯源

在调查传染病疫情时,宏基因组学在对样本进行测序后,还可以构建系统发生树等对病原进行追溯,找到潜在传播途径,及时确定和切断感染源,进而为制定公共卫生策略提供重要依据。

寨卡病毒通过蚊虫叮咬传播,孕妇感染后可导致新生儿小头症,2016年寨卡病毒疫情暴发引起了广泛的关注[55]。研究者通过对两例孕妇患者的羊水样本直接进行高通量测序,检测到寨卡病毒的全基因组,表明寨卡病毒可以穿过胎盘屏障感染胎儿,随后利用PCR和ELISA验证检测结果,进一步全基因组系统发育分析显示其与法属波利尼西亚的寨卡病毒具有97-100%的相似度,这为建立寨卡病毒和小头症的联系及确定病毒来源提供了重要参考[56]。此外,Quick等[57]发展了直接对临床样本测序的方法,通过多重PCR富集病毒基因组,并同时采用MinION和Illumina进行测序分析,可以得到病毒全部序列。基于上述方法,Guerbois等[58]获得感染患者的寨卡病毒序列,通过比对及溯源分析,发现该序列和北美地区埃及伊蚊中的病毒序列相似,推测病毒从危地马拉传入,并可能继续向北扩散,这为防止寨卡病毒进一步传播提供指导。

2011年,美国国立卫生研究院临床中心暴发了耐碳青霉烯药物病原疫情,造成18例感染和11例死亡。初始使用PCR和PFGE分析检测到肺炎克雷伯菌,但未能进一步区分患者菌株之间的差异以及对疫情深入研究。Snitkin等[59]使用宏基因组方法对此次疫情做了调查,测序得到菌株全基因组,序列分析显示其属于肺炎克雷伯菌NTUH-K2044型,并且检测到碳青霉烯药物的耐药基因,之后通过分析全基因组序列确定菌株之间的系统发育关系,结合流行病学调查,推测病原在18位患者之间的传播路径。值得关注的是,宏基因组分析传播路径结果显示病原不仅可以在相同病房内,还能在不同病房之间传播,表明本次疫情可能具有更复杂的传播方式,亟需加强对无症状人员和设备仪器等进行监测。在应对新突发疫情过程中,宏基因组方法能够获得样本毒力耐药信息,为治疗提供帮助。此外,把基因组数据与流行病学数据进行整体考虑,将遗传信息与样本提取的时间和位置结合,能够有效对疫情调查追溯,推测病原传播的过程和方式,对传染病的传播进行阻断。

流感病毒突变率和谱系可能对不同亚种的表型和抗原性起重要作用,对不同型别流感病毒进化关系追溯有利于更深刻地认识其变异传播规律,从而为防控提供依据。Yu等[60]通过收集患者呼吸道样本和当地家禽粪便、咽拭子等样本,利用宏基因组测序方法,在人类样本中检测到H7N9病毒,在家禽样本中则检测到H7N9和H9N2的共存,并对人和家禽样本均用PCR进行验证,发现H7N9的演化受到H9N2影响。

宏基因组得到病原基因组后,能准确比对其序列,判断病原源头。2010年乌干达医院报告疑似出血热病例,McMullan等[61]从4名病人的血液样本直接提取RNA进行测序,检测到黄热病毒序列,系统发育分析将其与非洲各地报道过的毒株进行比对。结果显示,以往乌干达出现的黄热病毒与非洲东部和中部地区的序列具有同源性,并且大多数黄热病毒具有地理聚集性。但是此次病例基因型不同于之前乌干达地区报道的基因组,而是与中非共和国特有的毒株具有相似性,揭示了可能的传播来源。

利用宏基因组方法还可以对一些历史疫情或病例进行研究,从而对传染病病原进行时空溯源。Keller等[62]从冰木乃伊的骨骸中提取了0.1 g骨活性组织并进行直接测序,检测到伯氏疏螺旋体菌,识别到目前已知最早的莱姆病患者。研究者收集了来自英国、丹麦、瑞典的距今1010-1383年共计22例骨骼和牙齿样本,使用宏基因组测序方法检测到麻风杆菌,并通过分析不同地区麻风杆菌的序列差异,探究麻风杆菌的起源与演变,推测美洲麻风病可能来源于欧洲,并且中东地区麻风杆菌基因型与中世纪欧洲地区基因型相关[63]。Chan等[64]对一名1797年的木乃伊肺部残留组织样本提取核酸后进行测序,发现其受到分布在欧洲和北美地区的两种不同基因型结核分枝杆菌的混合感染,这对研究结核分枝杆菌在世界范围内传播的过程具有重要意义。

3 展望

虽然宏基因组学是一项强有力的工具,但是其仍有一些局限性待解决和进一步发展。理论上宏基因组可以应用于任何样本,对不同类型病原体(如病毒、细菌、真菌和寄生虫等)都可以进行检测,但临床、环境等样本收集处理存在较多变量和不确定性,不同样本所含微生物复杂程度不同,因此建立并优化不同样本收集及处理标准化操作流程,有助于降低污染风险,并减少因分析流程不统一导致的分析结果偏差。

传染病感染样本复杂且含有大量非目的微生物核酸,当样本核酸浓度较低时,宏基因组测定序列难以实现致病病原高覆盖,导致数据分析的准确率和可靠性下降,尤其是全基因组测序分析比16S rDNA扩增分析需要更高的覆盖,如何提高感染病原核酸浓度及宏基因组测序序列精度是一个值得考虑的问题。且临床样本中人类基因组含量较高,在采取预防性措施的前提下,在50%-90%的序列中仍发现了人类基因,说明去除样本中人类核酸的技术仍存在较大发展空间[65]。此外,用于宏基因组分析的参考数据库还不够完善,大量测序数据无法进行有效匹配,这对于病毒分析尤其严重,研究显示80%或更多病毒的序列缺少与之相应的匹配[66]。相比传统检测,宏基因组方法可将病原检出率由12.82%(10/78)提高到30.77%(24/78),宏基因组测序虽然可以获得样本序列信息,但仍难以直接确认致病病原,无法满足诊治需求,需要对其进一步发展以适应临床需要[67]

在病原识别后的生物信息学分析过程中,如何将临床表型和基因型结合起来以及挖掘对传染病防控有用的信息是一个挑战。解决这一问题仍需要宏基因组学与传统实验室检测手段相结合,如在宏基因组检测到病原后使用PCR或分离培养方法进行确认,在检测到耐药基因后调整药物治疗方案以提高治疗效果等。其次,有研究表明,在序列分析过程中,人类阅读和分析隐私问题也值得关注[68-69],如何在病原检测过程中尽可能地保护患者隐私,避免出现因基因组测序导致的伦理问题,需要重点考虑。

在传染病病原检测中,时效性是一个重要问题,病原诊断的周转时间(Turn around time,TAT)是判断病原检测有效性的可靠指标。Goswami等[70]进行了为期一年的调查研究,对临床样本的TAT进行评估,结论是住院样本的TAT为5.5 h,门诊样本的TAT是24 h。针对临床样本的TAT,宏基因组测序和分析的速度亟需加快。如何提高测序速度是目前宏基因组发展的一个重要问题。

宏基因组是一个有活力的领域,运用宏基因组学技术进行病原监测、检测和溯源,应对新突发传染病疫情,成功打开了宏基因组学在公共卫生和疾病防控领域的应用大门,随着高通量测序技术的不断发展,宏基因组学分析流程和算法也不断更新和完善。宏基因组学相关领域的应用也正在受到越来越广泛的关注。

参考文献
[1]
Fouchier RA, Kuiken T, Schutten M, et al. Aetiology:Koch's postulates fulfilled for SARS virus[J]. Nature, 2003, 423(6937): 240. DOI:10.1038/423240a
[2]
Smith RD. Responding to global infectious disease outbreaks:lessons from SARS on the role of risk perception, communication and management[J]. Soc Sci Med, 2006, 63(12): 3113-3123. DOI:10.1016/j.socscimed.2006.08.004
[3]
Torsvik V, Ovreas L. Microbial diversity and function in soil:from genes to ecosystems[J]. Curr Opin Microbiol, 2002, 5(3): 240-245. DOI:10.1016/S1369-5274(02)00324-7
[4]
Roingeard P. Viral detection by electron microscopy:past, present and future[J]. Biol Cell, 2008, 100(8): 491-501. DOI:10.1042/BC20070173
[5]
Doane FW. Immunoelectron microscopy in diagnostic virology[J]. Ultrastruct Pathol, 1987, 11(5-6): 681-685. DOI:10.3109/01913128709048454
[6]
Rose TM. CODEHOP-mediated PCR -a powerful technique for the identification and characterization of viral genomes[J]. Virol J, 2005, 2: 20. DOI:10.1186/1743-422X-2-20
[7]
Ambrose HE, Granerod J, Clewley JP, et al. Diagnostic strategy used to establish etiologies of encephalitis in a prospective cohort of patients in england[J]. Journal of Clinical Microbiology, 2011, 49(10): 3576-3583. DOI:10.1128/JCM.00862-11
[8]
Finkbeiner SR, Allred AF, Tarr PI, et al. Metagenomic analysis of human diarrhea:viral detection and discovery[J]. PLoS Pathog, 2008, 4(2): e1000011.
[9]
Handelsman J, Rondon MR, Brady SF, et al. Molecular biological access to the chemistry of unknown soil microbes:a new frontier for natural products[J]. Chem Biol, 1998, 5(10): R245-249. DOI:10.1016/S1074-5521(98)90108-9
[10]
Chen K, Pachter L. Bioinformatics for whole-genome shotgun sequencing of microbial communities[J]. PLoS Comput Biol, 2005, 1(2): 106-112.
[11]
Miller RR, Montoya V, Gardy JL, et al. Metagenomics for pathogen detection in public health[J]. Genome medicine, 2013, 5(9): 81. DOI:10.1186/gm485
[12]
Maukonen J, Simoes C, Saarela M. The currently used commercial DNA-extraction methods give different results of clostridial and actinobacterial populations derived from human fecal samples[J]. FEMS Microbiol Ecol, 2012, 79(3): 697-708. DOI:10.1111/fem.2012.79.issue-3
[13]
Relman DA, Falkow S, Leboit PE, et al. The organism causing bacillary angiomatosis, peliosis hepatis, and fever and bacteremia in immunocompromised patients[J]. New England Journal of Medicine, 1991, 324(21): 1514.
[14]
Weisburg WG, Barns SM, Pelletier DA, et al. 16S ribosomal DNA amplification for phylogenetic study[J]. J Bacteriol, 1991, 173(2): 697-703. DOI:10.1128/jb.173.2.697-703.1991
[15]
Marchesi JR, Sato T, Weightman AJ, et al. Design and evaluation of useful bacterium-specific PCR primers that amplify genes coding for bacterial 16S rRNA[J]. Appl Environ Microbiol, 1998, 64(2): 795-799.
[16]
Klindworth A, Pruesse E, Schweer T, et al. Evaluation of general 16S ribosomal RNA gene PCR primers for classical and next-generation sequencing-based diversity studies[J]. Nucleic Acids Res, 2013, 41(1): e1. DOI:10.1093/nar/gks808
[17]
Claesson MJ, O'sullivan O, Wang Q, et al. Comparative analysis of pyrosequencing and a phylogenetic microarray for exploring microbial community structures in the human distal intestine[J]. PLoS One, 2009, 4(8): e6669. DOI:10.1371/journal.pone.0006669
[18]
Thurber RV, Haynes M, Breitbart M, et al. Laboratory procedures to generate viral metagenomes[J]. Nat Protoc, 2009, 4(4): 470-483. DOI:10.1038/nprot.2009.10
[19]
Del Sal G, Manfioletti G, Schneider C. The CTAB-DNA precipitation method:a common mini-scale preparation of template DNA from phagemids, phages or plasmids suitable for sequencing.[J]. Biotechniques, 1989, 7(5): 514-520.
[20]
Tsai Y-L, Olson BH. Rapid method for direct extraction of DNA from soil and sediments.[J]. Appl Environ Microbiol, 1991, 57(4): 1070-1074.
[21]
Simms D, Cizdziel PE, Chomczynski P. TRIzol:A new reagent for optimal single-step isolation of RNA[J]. Focus, 1993, 15(4): 532-535.
[22]
Grant P, Sims C, Krieg-Schneider F, et al. Automated screening of blood donations for hepatitis C virus RNA using the Qiagen BioRobot 9604 and the Roche COBAS HCV Amplicor assay[J]. Vox Sanguinis, 2002, 82(4): 169-176. DOI:10.1046/j.1423-0410.2002.00177.x
[23]
Jonasson J, Olofsson M, Monstein HJ. Classification, identification and subtyping of bacteria based on pyrosequencing and signature matching of 16S rDNA fragments[J]. Apmis, 2002, 110(3): 263-272. DOI:10.1034/j.1600-0463.2002.100309.x
[24]
Salipante SJ, Kawashima T, Rosenthal C, et al. Performance comparison of Illumina and ion torrent next-generation sequencing platforms for 16S rRNA-based bacterial community profiling[J]. Appl Environ Microbiol, 2014, 80(24): 7583-7591. DOI:10.1128/AEM.02206-14
[25]
Mosher JJ, Bernberg EL, Shevchenko O, et al. Efficacy of a 3rd generation high-throughput sequencing platform for analyses of 16S rRNA genes from environmental samples[J]. J Microbiol Methods, 2013, 95(2): 175-181. DOI:10.1016/j.mimet.2013.08.009
[26]
Mosher JJ, Bowman B, Bernberg EL, et al. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing[J]. J Microbiol Methods, 2014, 10: 459-460.
[27]
Aagaard K, Riehle K, Ma J, et al. A metagenomic approach to characterization of the vaginal microbiome signature in pregnancy[J]. PLoS One, 2012, 7(6): e36466. DOI:10.1371/journal.pone.0036466
[28]
Lasken RS, Mclean JS. Recent advances in genomic DNA sequencing of microbial species from single cells[J]. Nat Rev Genet, 2014, 15(9): 577-584.
[29]
Berger B, Peng J, Singh M. Computational solutions for omics data[J]. Nat Rev Genet, 2013, 14(5): 333-346. DOI:10.1038/nrg3433
[30]
张恩民, 海荣, 俞东征. 基因预测方法的研究进展[J]. 中国媒介生物学及控制杂志, 2009(3): 271-273.
[31]
Caporaso JG, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data[J]. Nat Methods, 2010, 7(5): 335-336. DOI:10.1038/nmeth.f.303
[32]
Huson DH, Auch AF, Qi J, et al. MEGAN analysis of metagenomic data[J]. Genome Res, 2007, 17(3): 377-386. DOI:10.1101/gr.5969107
[33]
Markowitz VM, Ivanova NN, Szeto E, et al. IMG/M:a data management and analysis system for metagenomes[J]. Nucleic Acids Res, 2008, 36(Database issue): D534-538.
[34]
Giardine B, Riemer C, Hardison RC, et al. Galaxy:a platform for interactive large-scale genome analysis[J]. Genome Research, 2005, 15(10): 1451-1455. DOI:10.1101/gr.4086505
[35]
Meyer F, Paarmann D, D'souza M, et al. The metagenomics RAST server-a public resource for the automatic phylogenetic and functional analysis of metagenomes[J]. BMC Bioinformatics, 2008, 9(1): 386. DOI:10.1186/1471-2105-9-386
[36]
Li W, Wooley JC, Godzik A. Probing metagenomics by rapid cluster analysis of very large datasets[J]. PLoS One, 2008, 3(10): e3375. DOI:10.1371/journal.pone.0003375
[37]
Fischer N, Indenbirken D, Meyer T, et al. Evaluation of unbiased next-generation sequencing of RNA(RNA-seq)as a diagnostic method in influenza virus-positive respiratory samples[J]. J Clin Microbiol, 2015, 53(7): 2238-2250. DOI:10.1128/JCM.02495-14
[38]
Greninger AL, Naccache SN, Federman S, et al. Rapid metagenomic identification of viral pathogens in clinical samples by real-time nanopore sequencing analysis[J]. Genome medicine, 2015, 7: 99. DOI:10.1186/s13073-015-0220-9
[39]
Lysholm F, Wetterbom A, Lindau C, et al. Characterization of the viral microbiome in patients with severe lower respiratory tract infections, using metagenomic sequencing[J]. PLoS One, 2012, 7(2): e30875. DOI:10.1371/journal.pone.0030875
[40]
Temmam S, Davoust B, Chaber AL, et al. Screening for viral pathogens in African simian bushmeat seized at a French airport[J]. Transboundary and Emerging Diseases, 2016, 64(4): 1159-1167.
[41]
Ng TF, Alavandi S, Varsani A, et al. Metagenomic identification of a nodavirus and a circular ssDNA virus in semi-purified viral nucleic acids from the hepatopancreas of healthy Farfantepenaeus duorarum shrimp[J]. Dis Aquat Organ, 2013, 105(3): 237-242. DOI:10.3354/dao02628
[42]
Sachsenroder J, Braun A, Machnowska P, et al. Metagenomic identification of novel enteric viruses in urban wild rats and genome characterization of a group A rotavirus[J]. J Gen Virol, 2014, 95(Pt 12): 2734-2747.
[43]
Coffey LL, Page BL, Greninger AL, et al. Enhanced arbovirus surveillance with deep sequencing:Identification of novel rhabdoviruses and bunyaviruses in Australian mosquitoes[J]. Virology, 2014, 448(448): 146.
[44]
Ksiazek TG, West CP, Rollin PE, et al. ELISA for the detection of antibodies to Ebola viruses[J]. J Infect Dis, 1999, 179(Suppl1): S192-S198.
[45]
Jacobs M, Rodger A, Bell DJ, et al. Late Ebola virus relapse causing meningoencephalitis:a case report.[J]. Lancet, 2016, 388(10043): 498-503. DOI:10.1016/S0140-6736(16)30386-5
[46]
Loman NJ, Constantinidou C, Christner M, et al. A culture-independent sequence-based metagenomics approach to the investigation of an outbreak of Shiga-toxigenic Escherichia coli O104:H4[J]. JAMA, 2013, 309(14): 1502-1510. DOI:10.1001/jama.2013.3231
[47]
Xu B, Liu L, Huang X, et al. Metagenomic analysis of fever, thrombocytopenia and leukopenia syndrome(FTLS)in Henan Province, China:discovery of a new bunyavirus[J]. PLoS Pathog, 2011, 7(11): e1002369. DOI:10.1371/journal.ppat.1002369
[48]
Fischer N, Rohde H, Indenbirken D, et al. Rapid metagenomic diagnostics for suspected outbreak of severe pneumonia[J]. Emerg Infect Dis, 2014, 20(6): 1072-1075. DOI:10.3201/eid2006.131526
[49]
Guan H, Shen A, Lv X, et al. Detection of virus in CSF from the cases with meningoencephalitis by next-generation sequencing[J]. J Neurovirol, 2016, 22(2): 240-245. DOI:10.1007/s13365-015-0390-7
[50]
Yao M, Zhou J, Zhu Y, et al. Detection of Listeria monocytogenes in CSF from three patients with meningoencephalitis by Next-Generation Sequencing[J]. J Clin Neurol, 2016, 12(4): 446-451. DOI:10.3988/jcn.2016.12.4.446
[51]
Ye M, Wei W, Yang Z, et al. Rapid diagnosis of Propionibacterium acnes infection in patient with hyperpyrexia after hematopoietic stem cell transplantation by next-generation sequencing:a case report[J]. BMC Infect Dis, 2016, 16: 5.
[52]
Palacios G, Druce J, Du L, et al. A new arenavirus in a cluster of fatal transplant-associated diseases[J]. N Engl J Med, 2008, 358(10): 991-998. DOI:10.1056/NEJMoa073785
[53]
Wilson MR, Zimmermann LL, Crawford ED, et al. Acute west nile virus meningoencephalitis diagnosed via metagenomic deep sequencing of cerebrospinal fluid in a renal transplant patient[J]. Am J Transplant, 2017, 17(3): 803-808. DOI:10.1111/ajt.2017.17.issue-3
[54]
Holtz LR, Finkbeiner SR, Kirkwood CD, et al. Identification of a novel picornavirus related to cosaviruses in a child with acute diarrhea[J]. Virol J, 2008, 5: 159. DOI:10.1186/1743-422X-5-159
[55]
Mlakar J, Korva M, Tul N, et al. Zika virus associated with microcephaly[J]. N Engl J Med, 2016, 374(10): 951-958. DOI:10.1056/NEJMoa1600651
[56]
Calvet G, Aguiar RS, Melo AS, et al. Detection and sequencing of Zika virus from amniotic fluid of fetuses with microcephaly in Brazil:a case study[J]. Lancet Infect Dis, 2016, 16(6): 653-660. DOI:10.1016/S1473-3099(16)00095-5
[57]
Quick J, Grubaugh ND, Pullan ST, et al. Multiplex PCR method for MinION and Illumina sequencing of Zika and other virus genomes directly from clinical samples[J]. Nat Protoc, 2017, 12(6): 1261-1276. DOI:10.1038/nprot.2017.066
[58]
Guerbois M, Fernandez-Salas I, Azar SR, et al. Outbreak of zika virus infection, chiapas state, mexico, 2015, and first confirmed transmission by Aedes aegypti mosquitoes in the americas[J]. J Infect Dis, 2016, 214(9): 1349-1356. DOI:10.1093/infdis/jiw302
[59]
Snitkin ES, Zelazny AM, Thomas PJ, et al. Tracking a hospital outbreak of carbapenem-resistant Klebsiella pneumoniae with whole-genome sequencing[J]. Sci Transl Med, 2012, 4(148): 148ra116.
[60]
Yu X, Jin T, Cui Y, et al. Influenza H7N9 and H9N2 viruses:coexistence in poultry linked to human H7N9 infection and genome characteristics[J]. J Virol, 2014, 88(6): 3423-3431. DOI:10.1128/JVI.02059-13
[61]
Mcmullan LK, Frace M, Sammons SA, et al. Using next generation sequencing to identify yellow fever virus in Uganda[J]. Virology, 2012, 422(1): 1-5. DOI:10.1016/j.virol.2011.08.024
[62]
Keller A, Graefen A, Ball M, et al. New insights into the Tyrolean Iceman's origin and phenotype as inferred by whole-genome sequencing[J]. Nature Communications, 2012, 3(698): 698.
[63]
Schuenemann VJ, Singh P, Mendum TA, et al. Genome-wide comparison of medieval and modern Mycobacterium leprae[J]. Science, 2013, 341(6142): 179-183. DOI:10.1126/science.1238286
[64]
Chan JZ, Sergeant MJ, Lee OY, et al. Metagenomic analysis of tuberculosis in a mummy[J]. N Engl J Med, 2013, 369(3): 289-290. DOI:10.1056/NEJMc1302295
[65]
Human Microbiome Project C. A framework for human microbiome research[J]. Nature, 2012, 486(7402): 215-221. DOI:10.1038/nature11209
[66]
Reyes A, Haynes M, Hanson N, et al. Viruses in the faecal microbiota of monozygotic twins and their mothers[J]. Nature, 2010, 466(7304): 334-338. DOI:10.1038/nature09199
[67]
Long Y, Zhang Y, Gong Y, et al. Diagnosis of sepsis with cell-free DNA by next-generation-sequencing technology in ICU patients[J]. Archives of Medical Research, 2016, 47(5): 365-371. DOI:10.1016/j.arcmed.2016.08.004
[68]
Callaway E. Microbiome privacy risk[J]. Nature, 2015, 521(7551): 136. DOI:10.1038/521136a
[69]
Erlich Y, Narayanan A. Routes for breaching and protecting genetic privacy[J]. Nat Rev Genet, 2014, 15(6): 409-421. DOI:10.1038/nrg3723
[70]
Goswami B, Singh B, Chawla R, et al. Turn around time(TAT)as a benchmark of laboratory performance[J]. Indian Journal of Clinical Biochemistry, 2010, 25(4): 376-379. DOI:10.1007/s12291-010-0056-4