中国公共卫生  2016, Vol. 32 Issue (9): 1276-1279   PDF    
基于大数据传染病监测预警研究进展
祝丙华, 王立贵, 孙岩松, 宋宏彬     
解放军疾病预防控制所传染病控制中心, 北京 100071
摘要: 近年来,传染病监测预警已成为传染病防控的重点和热点研究问题,传统传染病监测系统在一定程度上对于传染病防控起到了很好的预警作用,但存在监测范围局限、预警时间滞后等不足之处。随着信息技术的发展,以及传染病数据的大量增长,以大数据分析为基础的传染病监测预警研究正逐步成为研究焦点。本文详细介绍基于网络、社会和自然因素、医疗、病原监测等不同大数据来源的传染病监测预警系统,综述各系统优势和不足及未来发展趋势。
关键词大数据     传染病     监测预警    
Progress in researches on surveillance and early warning of infectious diseases based on big data
ZHU Bing-hua, WANG Li-gui, SUN Yan-song, et al     
Institute of Infectious Disease Prevention and Control, Academy of Military Medical Sciences, Beijing 100071, China
Abstract: In recent years, the surveillance and early warning of infectious diseases has become a research focus in the prevention and control of infectious diseases.Traditional infectious disease surveillance system plays an important role in infectious diseases surveillance, but there are some shortcomings for the system, such as limitation of surveillance scope and lag of early warning time.With the development of information technology and the increase of massive data, the surveillance and early warning of infectious diseases based on big data is gradually becoming the focus of research.In this paper we introduce different surveillance system based on big data which stem from network, natural and social factors, medical treatment, and pathogen monitoring.In addition, we point out the advantage, disadvantage and development trend of big data-based infectious disease surveillance and early warning.
Key words: big data     infectious disease     surveillance and warning    

目前,世界范围内传染病防治已经取得了显著成效,对人类危害巨大的传染病都得到了有效控制。但是,随着一些传染病的死灰复燃和SARS等新发传染病的不断出现,传染病依然是人类发病率较高,引起突发公共卫生事件较多的疾病[1]。因此,传染病监测预警在传染病防治中的作用愈发重要。传统的监测预警方法主要针对某一种或某一系统传染病进行预警,监测预警方法很难得到全面推广。目前,以大数据为基础的监测预警方法进展迅速,在甲型H1N1、埃博拉、手足口、肠道传染病防控等方面取得了显著成效。本文着重从大数据分析的角度,对传染病监测预警研究进展进行综述。

1 大数据定义、特征及数据处理

美国阿姆斯研究中心在数据处理中,因遇到数据量过大无法计算的问题,首次提出了大数据这一名词。2008年《Nature》[2]在“Big Data”专刊,从网络、超级计算、生物医学等方面介绍了数据量过大带来的挑战。目前,对于大数据的定义还没有形成统一的共识。一般来讲,大数据是指利用信息收集和处理技术对所掌握的海量数据进行专业化处理、分析的统称。李国杰等[3]认为大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据是一次思维上的变革,其核心意义在于对事物未来发展趋势的预测[4]。大数据具有4个重要特征,称为4V特征,即volume(大容量)、velocity(快速)、variety(多类型)和veracity(真实性)。大数据处理包括数据存储、数据管理和数据分析。大数据存储是大数据处理技术的基础,目前,大数据的存储正在由传统的运用部门层级的数据集来进行数据存储,朝着多个数据中心支持,支持更丰富的语义以及更强的一致性方向发展[5]。依据大数据处理时间要求,可以将大数据处理模式分成3种,即“离线批处理式数据处理”、“查询式数据处理”和“实时式数据处理”[5]。大数据分析作为整个大数据处理流程的核心,其相关内容包括可视分析、数据挖掘、预测及数据管理等。

目前,大数据已经应用到电信、航天、医疗甚至政府决策等几乎所有的领域。大数据在公共卫生领域中的应用更是得到了人们的关注,突出体现在以传染病监测数据为基础,运用不同数据处理技术,建立敏感、特异的传染病监测预警体系[6]

2 基于不同数据源的传染病大数据监测预警系统

传染病监测预警的基础是大数据,根据大数据来源的不同,监测预警系统大致分为以下4种类型。

2.1 基于网络大数据的传染病监测预警系统

随着互联网技术的高速发展,网络大数据越来越受到关注。实时网络信息处理技术可以获得海量网络数据,进而通过筛选、辨别真伪、统计分析等得出相应结论,其获取信息更加可靠、全面而快速[7]。目前已经有大量基于互联网及搜索引擎进行疾病监测的研究。尽管这些研究的数据源不同,但是都基于一个共同的前提:人们患病之后会通过互联网查询相关的信息,并且通过跟踪查询关键词的频率可以预测疾病的发生率。通过网络数据进行监测预警,应用最多的是流感与登革热。Polgreen[8]和Hulth[9]分别通过雅虎搜索引擎及医学网站进行流感发生率的预测,其结果与流感样病例数和实验室确诊病例数有很好的相关性。2009年,谷歌搜索引擎利用关键搜索词成功预测了流感暴发。而且他们的判断非常及时,比美国疾病预防控制中心的数据早一周以上的时间[2]。Ginsberg[10]通过自动获取方式在谷歌日志中选择关键词,建立模型以监测流感活动。模型预测值与国家疾病预防控制中心(center for disease control and prevention, CDC)数据高度吻合,并且能提前1到2周预测流感样病例的发生。Polgreen[8]基于同样原理在玻利维亚、巴西、印度、印度尼西亚、新加坡等建立了登革热传播模型。Althouse[11]利用谷歌搜索监测登革热相关词语,在泰国曼谷和新加坡建立了线性回归模型。上述两个登革热模型预测值与实际监测数据有良好的相关性。于伟文等[7]利用网络数据分析了中国活禽交易市场与人感染H7N9禽流感病例的地理关系,对重新定位、查找可能携带H7N9禽流感病毒的禽类和市场,控制传播和扩散具有重要参考意义。国内利用大数据进行疫情预测的另一个成功案例是中国医学科学院袁清玉教授[12]所开发的基于百度搜索数据分析的流感预测。一方面,百度搜索引擎在国内占有绝对优势,数据量大,且来源单一而可靠。另一方面,该研究将流感病例数、实时搜索数据和流感实验室检测数据相结合,通过关键词筛选、过滤、指标构成、建模来监测流感活动。

基于网络数据的监测预警系统,具有明显的优势[13]:(1)避开了传统监测系统的层峰式结构,具有实时、快速的特点。(2)传统监测系统只能收集疾病治疗阶段的数据,而基于网络数据的监测系统可以在症状出现时期或者疾病发生早期进行预警[14]。(3)基于网络的监测系统适合于大量人群的数据分析。即使在一些中低收入国家,其网络使用率仅为30.7%,网络来源的数据分析依旧优于传统监测系统。但是,网络数据的发展同样面临着挑战[13]:(1)空间分辨率有待提高。以谷歌流感趋势为例,目前能够预测城市层面的流感发生率,而对于更小范围、地方性的暴发其灵敏度和空间分辨率则不够[15]。空间分辨率受限于数据集合水平和网站搜索量。(2)如何用合适的模式将互联网数据转化为精确的、有意义的、实用的信息。由自我报告和媒体驱动导致的偏倚是互联网监测系统最大的混杂因素。如何规避这些偏倚,依然是目前研究的重点。(3)文化差异、语言变化、方言等都影响着网络监测数据的准确性。基于网络数据建立的模型必须过滤无关信息,标准化疾病相关搜索词,在用于政策制定前必须保证数据的可靠。(4)关于数据隐私问题。考虑到伦理因素,数据需要进行去识别或者排除特定标识。数据内容不能与个体特征相关联,不能有生态学谬误。谷歌流感趋势与登革热趋势均为谷歌慈善机构管理,尽管这些服务是免费的,但是在具体算法中不会泄漏搜索词。尤其是多个跨国公司管理下,封闭源数据显得尤为重要。

2.2 基于社会因素和自然环境因素大数据分析的传染病监测预警系统

传染病的发病原因比较复杂,病原体变异、人体免疫力、人们的生活方式和防病意识等都能影响疾病的发生。近年来,社会因素和自然环境因素在传染病发生发展中的作用正逐渐被人们所关注,尤其是一些自然疫源性疾病、呼吸道传染病等更是成为研究的热点。2014年埃博拉出血热大暴发,大数据在疫情预测上发挥了至关重要的作用。通过分析当地居民行动通信资料,可以准确定位疫区位置,达到合理规划资源、预测疫情扩散[16-17];加拿大Bio.Diaspora公司运用地理资讯系统,通过分析全球航班起降、人口移动、气候因素、家禽家畜密度、城市卫生管理系统等资讯,建立模型,发布动态全球病毒地图,成功预测下一个可能引暴埃博拉病毒的地区[18]。James[19]利用mHealth策略,基于人群移动信号大数据分析进行救济协助、需求评估和疾病监测。一定程度上有利于西非埃博拉疫情的控制。

随着计算机和空间技术的发展,地理信息系统(geographic information system, GIS)和遥感技术(remote sensing, RS)因其具有的强大的地理空间数据获取、管理、处理、分析和显示的能力,越来越多的应用于传染病监测预警研究中。曾晓露[20]利用GIS,通过遥感卫星地图提取疟疾疫区的地理空间信息,将其与该地区疟疾疫情数据进行综合处理,探索了遥感图像所含地理信息与疟疾疫情的相关性,为研究未知地区疟疾疫情发病强度预测技术奠定基础。郎猛等[21]基于GIS,应用Google Earth技术和神经网络数学分析建立了H7N9疫情流行与多环境因素的相关模型,对不同区域不同时段的H7N9疫情等级和空间分布进行预测,从一个全新的角度发现和了解了H7N9流行的时空规律。钟少波[22]利用GIS与遥感技术,分析了乙肝和高致病性禽流感在中国的地理分布,根据疾病生物学和流行学特征推定其环境危险因素,建立疾病与环境因素相关性的回归分析模型,并对疾病发生概率进行了预测。另外,伤寒、猩红热、登革热、霍乱、细菌性痢疾等传染病发病与社会因素和自然环境因素之间的关系也成为人们研究的热点。

2.3 基于医疗大数据的传染病监测预警系统

医疗大数据主要来自检验结果、影像数据、费用数据、基因数据等,数据量庞大,每天都在更新。大数据在医疗卫生领域的应用广泛,包括疾病诊断、治疗效果评估、流行病预测和药物不良反应分析等[23]。医疗大数据对传染病的监测预警主要是通过症状监测模式来实现。症状监测是指持续、系统地收集、分析临床明确诊断前与疾病暴发相关的资料,及时发现疾病在时间、空间上的异常聚集,以期对疾病暴发进行早期探查、预警和快速反应的监测方法。症状监测通常不依赖于特定的疾病诊断,而是对人群中特定临床综合征进行监测。目前电子病历系统已覆盖全国,公共卫生部门可以通过分析全国各地的患者出现相同或相似症状的信息,预测某些传染病的暴发,提前快速响应。谢立等[24]进行了流感样病例与非处方药销量相关性的分析,在人口相对稳定的区域,当流感样病例出现时间和(或)空间聚集性时,非处方药(over the counter,OTC)销售监测系统就可能检出异常,提供方便、有意义和及时的公共卫生信息和早期预警信号。李印东等[25]在进行学校传染病疫情早期预警研究中,利用症状监测原理开展学生因病缺课监测,建立合理预警阈值以达到早期预警的目的。症状检测作为传统监测的有益补充,提高了新发传染病和暴发疫情发现的敏感性,提高了疾病防控的能力和水平。但是当前的症状监测也存在一些不足之处,比如推广成本高、信息化建设落后、病原检测滞后、数据不能共享等。

2.4 基于病原监测大数据的传染病监测预警系统

传染病暴发流行是病原体通过传播途径在易感人群中引发的,病原监测对于明确疾病的传播过程、追溯传染来源等方面能够起到关键作用。病原监测涉及到病原体分离、鉴定、分子诊断、血清学检测、以及其他体内体外试验等。国际上,发达国家尤其重视细菌性传染病监测中的病原分析与预警工作, 通过整合病原检测技术、网络实验室、现场调查和数据分析达到提前预警。比如美国建立的细菌传染病监测PulseNet系统和食源性疾病主动监测网(FoodNet)等[26]。全球新兴传染病监测和反应系统(Global Emerging Infections Surveillance and Response System,GEIS)主要致力于整合全球监测系统、能力建设工程、疫情调查和日常训练,该系统已经覆盖了92个国家。在防控甲型H1N1、疟疾等方面发挥了重要的全球生物监测的作用[27-28]。中国以往的传染病监测以疫情报告总结为主, 病原监测不够系统和规范。SARS之后,中国工程院院士、病毒学家侯云德[29]曾建议尽快建立全国范围的病原生物监控系统,对病原体的收集、检测、分析和控制进行整合,以提高中国预防控制突发性传染病和反生物恐怖袭击的能力。目前中国已建成细菌性传染病的实验室监测网络(PulseNet China),这是一个以脉冲场凝胶电泳分型技术为基础、结合其他分型技术以及菌株信息和流行病学信息的网络监测平台。在为细菌性传染病的监测提供病原监测的数据交流, 调查分析传染病的扩散、建立不同地区之间的暴发流行关系、追溯传染来源等方面发挥了至关重要作用。

目前,利用病原体基因组数据进行传染病监测预警越来越受到人们的关注。邹远强等[30]利用疾病基因组大数据结合计算机模型为传染病防控提供了新的思路。互联网为基础的大数据可以实时监测传染病活动,但是却不能提供有关新发病原体基因组、免疫性、耐药性等方面的信息。而基因组大数据分析正好弥补了互联网大数据的不足,二者结合势必成为传染病防控的新里程。Rowland[31]在全基因组测序和大数据结合如何改变流行病学发展一文指出,流行病学中关于如何确定疾病谁传给谁的问题始终处于不确定或逻辑不通的困惑。新近兴起的代测序技术有助于我们发现病原体基因组的可追踪变异。通过全基因组测序技术可以确定传播途径,弥补疾病的进化动力学。测序技术与复杂数学、统计方法的结合为我们探讨传染病的传播和防控带来了思维模式的转变[31]。美国疾病预防控制中心研发的高级分子探测系统(advanced molecular detection,AMD)致力于介绍传染病的最新检测手段,集合了流行学家、实验室人员、生物信息学专家,借助基因测序和超级计算在李斯特氏菌、艾滋病病毒、埃博拉病毒、寨卡病毒的检测方面发挥了重要作用[32]

3 未来发展趋势 3.1 传染病监测预警系统的融合发展

不同数据来源的传染病监测预警系统有各自的优势和不足,如何取长补短、融合不同预警系统的优点、改进监测手段,成为下一步研究的重点。概括说,主要集中在以下几个方面[13, 16]:(1)在探讨新的监测手段及将监测系统应用于新的疾病种类的同时,也应注意如何将这些监测手段与现有监测系统融合。新的监测系统不是对现有监测系统的取代,而是在现有监测系统上的延伸[33]。(2)基于网络数据的监测系统仅仅应用在发达国家,但是随着旅游和贸易的全球化,国家与国家之间的联系愈加频繁。检测、监测和防控传染病应该成为一个全球的问题。在探讨如何解决网络大数据不足之处的同时,也应着手建立基于网络数据来源的全球化监测系统。(3)建立对监测系统的评价体系。如何从逻辑学、经济学、流行病学的角度去评价监测系统,从而保证监测系统的使用及推广。

3.2 传染病大数据新处理技术的研发

数据处理是大数据分析的核心。随着数据容量的扩大和数据结构的多样化,目前的数据存贮方式、处理架构以及分析技术都制约着大数据的发展。而云技术的出现,为大数据处理带来了革命性的变化。大数据挖掘处理需要云计算作为平台,云计算将计算资源作为服务支撑大数据的挖掘。大数据与云计算的结合,可以快速分析海量数据的相关性,寻找规律性。云存储作为一种新兴的网络存储技术解决了目前大数据存储瓶颈的问题。借助云计算和云存储,在保证数据安全的情况下,可以实现传染病大数据的存储、更新、处理、反馈、预测等。大数据处理技术的变革将极大提高传染病监测预警体系的准确性、实效性及灵敏性,发挥大数据在传染病防控中的巨大潜能。

综上所述,基于大数据的传染病监测预警工作的研究方法和理论已经取得了长足进步,并逐步走向成熟。尽管大数据存在一些尚待解决的挑战,比如数据噪声、数据共享以及个人隐私安全等。但是我们相信,随着数据处理技术日新月异的发展以及国家层面大数据相关政策的落实,大数据必将带来巨大变革,也必将在传染病监测预警领域发挥至关重要的作用。

参考文献
[1] 聂绍发, 黄淑琼. 传染病预测预警体系建设现状研究[J]. 公共卫生与预防医学 , 2010, 21 (4) : 1–3.
[2] 张昌明, 朱红. 大数据以及在医疗领域的应用[J]. 中国医学教育技术 , 2015, 29 (3) : 294–297.
[3] 李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域[J]. 中国科学院院刊 , 2012, 27 (6) : 647–656.
[4] 王潇, 张爱迪, 严谨. 大数据在医疗卫生中的应用前景[J]. 中国全科医学 , 2015, 18 (1) : 113–115.
[5] 李贞强, 陈康, 武永卫, 等. 大数据处理模式-系统结构, 方法以及发展趋势[J]. 小型微型计算机系统 , 2015, 36 (4) : 641–647.
[6] 马家奇. 公共卫生大数据应用[J]. 中国卫生信息管理 , 2014, 11 (2) : 174–181.
[7] 于伟文, 杜鹏程, 陈晨, 等. 利用网络数据分析我国活禽市场与人感染H7N9禽流感病例的地理关系[J]. 中华流行病学杂志 , 2014, 35 (3) : 266–270.
[8] Polgreen PM, Chen Y, Pennock DM, et al. Using internet searches for influenza surveillance[J]. Clin Infect Dis , 2008, 47 (11) : 1443–1448. DOI:10.1086/596019
[9] Hulth A, Rydevik G, Linde A. Web queries as a source for syndromic surveillance[J]. PLoS One , 2009, 4 : e4378. DOI:10.1371/journal.pone.0004378
[10] Ginsberg J, Mohebbi MH, Patel RS, et al. Detecting influenza epidemics using search engine query data[J]. Nature , 2009, 457 (7232) : 1012–1014. DOI:10.1038/nature07634
[11] Althouse BM, Ng YY, Cummings DA. Prediction of dengue incidence using search query surveillance[J]. PLoS Negl Trop Dis , 2011, 5 : e1258. DOI:10.1371/journal.pntd.0001258
[12] Yuan QY, Elaine O, Ben FL, et al. Monitoring influenza epidemics in China with search query from baidu[J]. Chinese Influenza Epidemic , 2013, 8 (2) : 1–7.
[13] Milinovich GJ, Williams GM, Clements AC, et al. Internet-based surveillance systems for monitoring emerging infectious diseases[J]. Lancet Infect Dis , 2014, 14 (2) : 160–168. DOI:10.1016/S1473-3099(13)70244-5
[14] Chan EH, Sahai V, Conrad C, et al. Using web search query data to monitor dengue epidemics:a new model for neglected tropical disease surveillance[J]. PLoS Negl Trop Dis , 2011, 5 : e1206. DOI:10.1371/journal.pntd.0001206
[15] Malik MT, Gumel A, Thompson LH, et al. "Google flu trends" and emergency department triage data predicted the 2009 pandemic H1N1 waves in Manitoba[J]. Can J Public Health , 2011, 102 (4) : 294–297.
[16] 董银峰, 刘忠于, 王好锋, 等. 大数据在疾病预防控制中的作用[J]. 实用医药杂志 , 2015, 32 (7) : 579–581.
[17] Matthew W.Ebola:Can big data analytics help contain its spread?[EB/OL].[2014-10].http://www.bbc.com/nems/business-29627831.
[18] 辛妍. Bio.Diaspora:基于大数据的疫情扩散预测[J]. 新经济导刊 , 2014, 11 : 44–49.
[19] James OD, Amalia B.Controlling Ebola through mHealth strategies[EB/OL].http://www.thelancet.com/lancetgh, 2015, 3(1):e22.
[20] 曾晓露, 叶诗洋, 徐聪, 等. 基于遥感与地理信息的海南地区疟疾疫情相关性研究[J]. 第三军医大学学报 , 2015, 37 (8) : 821–826.
[21] 郎猛.基于GIS的H7N9环境因素分析与信息系统研究[D].哈尔滨:哈尔滨理工大学硕士学位论文, 2015. http://cdmd.cnki.com.cn/article/cdmd-10214-1015576157.htm
[22] 钟少波.GIS和遥感应用于传染病流行病学研究-以乙肝和高致病性禽流感为例[D].北京:中国科学院研究生院博士学位论文, 2006.
[23] 邹北骥. 大数据分析及其在医疗领域中的应用[J]. 计算机教育 , 2014, 7 : 24–29.
[24] 谢立, 杨旭辉, 王婧, 等. 基于非处方药销售的流感样病例残差预警研究[J]. 中国预防医学杂志 , 2014, 15 (8) : 724–728.
[25] 李印东, 王全意, 李玉堂, 等. 学校因病缺课监测预警阈值的研究[J]. 首都公共卫生 , 2008, 2 (3) : 112–115.
[26] 阚飙, 徐建国. 传染病监测的实验室网络化[J]. 疾病监测 , 2005, 20 (1) : 1–2.
[27] Kevin LR, Jennifer R, Ronald LB, et al. The Global Emerging Infection Surveillance and Response System (GEIS), a US government tool for improved global biosurveillance:a review of 2009[J]. BMC Public Health , 2011, 11 (Suppl 2) : S2. DOI:10.1186/1471-2458-11-S2-S2
[28] Mark MF, Terry AK, Tadeusz K, et al. Malaria and other vector-borne infection surveillance in the US Department of Defense Armed Forces Health Surveillance Center-Global Emerging Infections Surveillance Program:review of 2009 accomplishments[J]. BMC Public Health , 2011, 11 (Suppl 2) : S9. DOI:10.1186/1471-2458-11-S2-S9
[29] 王毅.禽流感引发防控体系的再思考[N].中国医学信息导报, 2004-03-12.
[30] Zou YQ, Peng YS, Li Z, et al. Monitoring infectious diseases in the big data era[J]. Sci.Bull , 2015, 60 (1) : 144–145. DOI:10.1007/s11434-014-0696-5
[31] Rowland RK, Daniel TH, Samantha JL, et al. Supersize me:how whole-genome sequencing and big data are transforming epidemiology[J]. Trends in Microbiogy , 2014, 22 (5) : 282–291. DOI:10.1016/j.tim.2014.02.011
[32] Pamphlet.CDC:advanced molecular detection (AMD) and respnse to infectious disease outbreaks:FY 2014 Present's budget: million[J/OL]." target=_blank>http://www.stacks.cdc.gov, 2014-8-25.
[33] Pattie DC, Cox KL, Burkom HS, et al. A public health role for internet search engine query data[J]. Mil Med , 2009, 174 (8) : 11–12.