基于反向传播神经网络模型的广东省登革热疫情预测研究
  中国媒介生物学及控制杂志  2018, Vol. 29 Issue (3): 221-225

扩展功能

文章信息

任红艳, 吴伟, 李乔玄, 鲁亮
REN Hong-yan, WU Wei, LI Qiao-xuan, LU Liang
基于反向传播神经网络模型的广东省登革热疫情预测研究
Prediction of dengue fever based on back propagation neural network model in Guangdong, China
中国媒介生物学及控制杂志, 2018, 29(3): 221-225
Chin J Vector Biol & Control, 2018, 29(3): 221-225
10.11853/j.issn.1003.8280.2018.03.001

文章历史

收稿日期: 2017-12-21
网络出版时间: 2018-04-11 14:11
基于反向传播神经网络模型的广东省登革热疫情预测研究
任红艳1, 吴伟1,2, 李乔玄1,2, 鲁亮3     
1 中国科学院地理科学与资源研究所, 资源与环境信息系统国家重点实验室, 北京 100101;
2 福建师范大学地理科学学院, 福州 350007;
3 中国疾病预防控制中心传染病预防控制所, 传染病预防控制国家重点实验室, 北京 102206
摘要: 目的 构建并校验基于反向传播(BP)神经网络的登革热疫情预测模型,为登革热疫情的防控工作提供方法参考。方法 基于登革热疫情资料和地理环境时空数据,分析登革热的时空分布特征及登革热病例空间自相关性,并采用Pearson相关系数对广州和佛山市(广佛)的登革热疫情及其影响因素进行相关性分析;然后利用Matlab 7.0软件完成BP神经网络预测模型的构建、训练和模拟。结果 2014年8-10月广佛地区登革热病例的空间分布中,发生本地病例数最高分别为90、386和456例/km2,疫情空间分布主要聚集在广佛交界处;广佛地区登革热本地疫情在1 km×1 km尺度上具有极显著的空间自相关性(P=0.001,Z=134.402 5,全局Moran's I指数=0.606 5);当月(8-10月)登革热本地病例疫情与上月(7-9月)疫情(本地病例与输入性病例)、气象(温度、湿度、降雨量)、社会(人口密度、城乡居民用地、林地、耕地)等多因素间存在不同程度的相关性;基于BP神经网络的登革热疫情预测模型的预测值与真实值相关系数为0.773,均方根误差为7.522 0。结论 广佛地区的登革热疫情并非随机分布,具有明显的空间聚集性;登革热的发生受多种因素综合影响,基于BP神经网络模型可以有效地预测广佛地区登革热疫情的时空分布。
关键词: 登革热     空间相关     影响因素     BP神经网络模型    
Prediction of dengue fever based on back propagation neural network model in Guangdong, China
REN Hong-yan1, WU Wei1,2, LI Qiao-xuan1,2, LU Liang3     
1 State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China;
2 College of Geographical Sciences, Fujian Normal University College;
3 State Key Laboratory of Infectious Disease Prevention and Control, Natural Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention
Supported by the National Natural Science Foundation of China (No. 41571158), National Key Research and Development Plan (No. 2016YFC1201305-03), and State Key Laboratory of Resources and Environment Information Systems, Independent Innovation Project (No. O8R8B6A0YA)
Abstract: Objective The prediction model of dengue fever based on back propagation (BP) neural network was constructed and verified, which provided a reference for the prevention and control of dengue. Methods Based on the temporal and spatial data of dengue fever epidemics and geographical environment, the spatio-temporal distribution characteristics of dengue fever and the spatial autocorrelation of dengue fever cases were analyzed. Pearson's method was used to analyze the correlation between dengue fever and various influencing factors in Guangzhou and Foshan areas. Then, Matlab 7.0 software was used to complete BP neural network prediction model construction, training and simulation. Results From August to October 2014, the highest incidence of dengue cases in Guangzhou and Foshan area was 90, 386, 456 cases/km2, respectively, and the spatial distribution of the epidemics mainly concentrated in Guangzhou (P=0.001, Z=134.402 5). The global Moran's I index was 0.606 5. In the same month of dengue fever, the local epidemic situation of dengue in Guangzhou and Foshan district was significantly different. The outbreaks of the local cases were correlated to the epidemics of the previous month (July, August and September) (local cases and imported cases), meteorological (temperature, humidity and precipitation), and social (population density, urban and rural residential land, forest, farmland)factors. The correlation coefficient between the predicted value and the true value was 0.773 and the root mean square error was 7.522 0. Conclusion Dengue epidemics in Guangzhou and Foshan areas was not randomly distributed but obviously spatially clustered. The occurrence of dengue fever is influenced by many factors and the BP neural network model can effectively predict the temporal and spatial distribution of dengue fever in Guangzhou and Foshan areas.
Key words: Dengue fever     Spatial correlation     Influencing factors     Back propagation neural network model    

登革热(dengue fever,DF)是由登革热病毒引起、主要通过埃及伊蚊(Aedes aegypti)和白纹伊蚊(Ae. albopictus)传播的虫媒病毒性疾病,广泛分布于美洲、东南亚、西太平洋地区等全球热带和亚热带地区,近几十年已威胁全球约一半人口[1]。登革热自1978年在广东省佛山市暴发以来,在我国间断性流行,流行的趋势为每隔4~7年发生一次[2],疫情尤以广东省严重[1-4],广东省又以广州和佛山市(广佛)最为突出[5]。因尚无有效的登革热疫苗,迫切需要探索科学的登革热疫情防控策略,因此,加强登革热疫情的预测预警研究,以便于积极应对日益严峻的登革热疫情形势。

登革热疫情的发生、发展和流行过程具有明显的时间和空间特征[6]。利用地理时空数据分析方法模拟登革热的时空过程与趋势,并探究其影响因素,是登革热疫情科学预测与防控的重要方法。同时,登革热流行主要受温度、降雨量、湿度、伊蚊密度、人口密度与流行等因素影响[7-9],其传播过程是一个非线性复杂系统,传统的数学模型在模拟登革热传播过程和预测方面有一定局限性。近年来,人工神经网络在解决非线性系统的建模等问题上显示出明显的优越性,在传染病疫情预测中的应用也越来越广泛,如Arav-Boger等[10]利用人工神经网络构建了先天性巨细胞病毒(CMV)感染发病情况的预测模型;谢旭等[11]基于肠道传染病与气象、媒介因素的相关关系,建立肠道传染病发病率的反向传播(back propagation,BP)神经网络模型。鉴于此,本研究拟基于登革热疫情资料和地理环境时空数据,利用空间相关分析方法分析登革热疫情时空变化特征及其影响因素,构建并校验基于BP神经网络的登革热疫情预测模型,为广佛等地区登革热疫情防控提供方法参考。

1 材料与方法 1.1 研究区域

广佛地区位于广东省中南部(22.58°~23.94° N,112.38°~114.05° E),是珠江三角洲地区的核心城市(图 1)。2015年广佛地区生产总值为26 104亿元,2015年年末常住人口为2 093.17万人。近年来,随着“广佛同城”发展战略和相关政策的推行,广佛地区交通、经济等一体化进程不断加速,区域内人员来往密切,为登革热疫情的防控带来挑战。

图 1 2014年广州和佛山市登革热病例分布 Figure 1 Dengue fever cases in Guangzhou and Foshan in 2014
1.2 数据采集与预处理 1.2.1 登革热疫情数据

2014年广佛地区登革热病例数据来源于中国CDC传染病疫情报告网。利用空间标准地址库对患者的居住地址进行地理编码(http://www.gpsspg.com/xGecoding/),获取相应的空间坐标。以“月”为单位,分别统计发生在每个样本区域(1 km×1 km)内的登革热本地和输入性病例数。

1.2.2 人口数据

人口密度是影响登革热流行与传播的重要因素。因覆盖2014年广佛地区1 km×1 km格网(栅格)的人口空间数据尚未发布,本研究暂以2010年同规格的数据代替,每个栅格值为该平方公里的人口数。

1.2.3 土地利用数据

土地利用类型在空间分布上的差异一定程度上影响了伊蚊的空间分布和登革热的传播与流行。本研究中土地类型分为6大类,即耕地、林地、草地、水域、建设用地和未利用地。

1.2.4 气象数据

温度、湿度和降雨量等气象因素主要通过改变伊蚊的分布范围,增加蚊虫的孳生场所、繁殖速度与侵袭力等方式影响登革热的传播。鉴于广佛地区登革热疫情集中在8—10月,而气候因素对登革热疫情的影响存在一定时间的滞后效应,本研究收集整理了广佛地区2014年7—9月的月平均温度、月平均湿度、月平均降雨量的气象数据。人口数据、土地利用数据和气象数据均来源于中国科学院资源环境科学数据中心(http://www.resdc.cn),其空间分辨率为1 km×1 km。

1.3 方法 1.3.1 空间相关性

空间自相关程度利用全局Moran's I指数表示。对于Moran指数,可以用标准化统计量Z进行检验n个区域是否存在空间自相关关系。空间自相关性分析在开源软件Geoda(095i)中实现。

1.3.2 BP神经网络模型

BP神经网络是一种单向传播的多层向前模型,具有自学习、自组织、自适应等能力,是人工神经网络中应用最为广泛的一种模型。将8、9月的疫情数据及相应环境要素数据作为训练样本,构建BP神经网络模型,并模拟10月11 001个样本点的本地登革热病例数,然后以10月实际疫情数据对模拟预测结果进行校验。BP神经网络模型的层数确定为3层,输入层神经元为经过归一化处理的登革热传播流行相关影响因素,用试错法确定隐含层节点为10个,传递函数为tansig;输出层神经元个数为1个,即当月登革热本地病例数,传递函数为tansig;网络训练函数为trainscg。通过不断调整影响因素的权重,使网络预测值与实际值的误差达到最小。BP神经网络的构建、训练和模拟过程均利用Matlab 7.0软件中的人工神经网络工具箱实现。

1.3.3 精度评价

模型建立后,采用校验样本对模型效果进行校验,同时以均方根误差(root mean square error,RMSE)作为检验模型精度的指标。RMSE越小,表明模型精度越高。

1.4 统计学处理

利用Excel 2007软件进行数据的汇总和处理,利用SPSS 19.0软件对广佛地区的的登革热疫情及其影响因素进行统计学处理和Pearson相关性分析。P<0.05为差异有统计学意义。

2 结果 2.1 登革热病例时间分布

2014年广佛地区登革热病例共40 691例,其中40 453例为本地病例,238例为输入性病例。本地病例呈单峰型分布,高峰期在8—10月,其中10月病例20 181例,占全年病例数约50%。自7月开始本地病例数陡然上升,在10月达到高峰,在11—12月骤减,见图 2。同时,本地病例与输入性病例的时间变化趋势一致,并未呈现出明显的滞后性。

图 2 2014年广州和佛山市登革热病例时间分布 Figure 2 Time distribution of dengue fever cases in Guangzhou and Foshan area in 2014
2.2 登革热病例空间分布

2014年8—10月广佛地区登革热本地病例数最高分别为90、386和456例/km2。疫情分布范围逐月扩大,由324 km2扩大至1 601 km2。同时,疫情空间分布呈现明显的聚集性,主要聚集在广佛交界处。其中,高发区域为广州市越秀、荔湾、白云、天河、海珠、番禺区和佛山市的禅城区(广佛主城区),见图 3

图 3 广州和佛山市登革热本地病例空间分布 Figure 3 Spatial distribution of local dengue fever in Guangzhou and Foshan area

从登革热疫情的空间自相关分析结果可知,广佛地区本地疫情在1 km×1 km尺度上具有极显著的空间自相关性(P=0.001,Z=134.402 5,全局Moran's I指数为0.606 5),表明广佛地区邻近区域之间登革热疫情存在一定相互影响。因此,疫情时空模拟应充分考虑邻域的疫情。鉴于此,本研究将每个格网8个邻域格网上月疫情信息纳入,使其参与模型的构建。

2.3 疫情影响要素分析

通过分析当月(8—10月)本地疫情与上月(7—9月)本地和输入疫情、气象(温度、湿度、降雨量)、社会(人口密度、城乡居民用地、林地、耕地)等因素间的相关性发现,本地疫情与这些因素存在不同程度的相关性(表 1)。其中,上月本地疫情、平均温度、人口密度、土地用地类型等因素与当月本地疫情间的关系达到极显著水平。表明这些因素也应当参与预测模型的构建。

表 1 广州和佛山市登革热当月(8—10月)本地疫情与上月(7—9月)不同因素间的相关性 Table 1 Pearson correlation between the local epidemic of dengue fever in the month and different factors of the previous month
2.4 疫情模拟结果及精度评价

本研究构建的本地疫情预测模型以上月输入性病例、上月本地病例、气象、人口密度、土地用地数据等9个指标作为输入因子,包含10个隐含层节点,并输出当月的本地疫情。基于10月实际疫情数据〔11 001个样本格网的本地疫情〕,对模型模拟结果(10月本地疫情)进行校验。预测值与真实值相关系数为0.773,RMSE为7.522 0,在0.01(双侧)水平上显著相关(图 4),表明模型的预测效果较好。

图 4 基于BP神经网络模型登革热疫情预测值与真实值的误差 Figure 4 The predicted results and true of dengue fever based on BP model

从模型预测的疫情空间分布(图 5)可知,BP神经网络模型的预测结果较理想。广佛地区本地疫情高达231例/km2,疫情集中发生在广佛主城区,表明BP神经网络预测结果比较符合实际疫情分布情况,仅在局部地区存在较为明显的误差,推测可能因及时性差的人口数据和静态的土地用地数据等对BP模型产生了干扰。

图 5 广州和佛山市10月登革热预测值与真实值的空间分布 Figure 5 The spatial distribution of prediction and true value of dengue fever in October
3 讨论

本研究通过分析2014年广佛地区登革热疫情的时空分布特征,构建了基于BP神经网络方法的广佛地区登革热疫情预测模型,并探讨了该方法实际应用的可行性,为相关地区疾病预防控制部门积极应对登革热疫情、有效开展登革热防控工作提供重要支持。

本研究发现,广佛地区登革热疫情空间聚集性十分明显,与以往研究一致,即登革热疫情的空间分布并非随机[12-14]。疫情的时空变化可能与该地区温暖适宜的气候、较高的土地利用效率、密集的人口等环境要素和社会经济条件有密切关联[15-17]。2014年广佛地区疫情主要聚集于城市中心的老城区,可能与当地居民的生活方式及环境因素密切相关,这些老城区的居民爱好种植富贵竹、万年青等水生植物,为白纹伊蚊提供了良好孳生环境。因此,建议卫生部门适时加大对这些区域疫情的防控力度。

本次BP神经网络模型预测结果显示,真实值与模拟值的差异不大,其相关系数为0.773,并有较好的空间分布相似性,说明本研究建立的BP神经网络预测模型的拟合效果较好。究其原因:一方面,人工神经网络对样本各自变量的分布及其相互关系无任何要求,任意类型的数据均可应用于神经网络,利用其非线性处理和网络综合能力,可以解决传统处理方法无法处理的问题[11];另一方面,BP神经网络具有理论依据充分、推导过程严谨和通用性较好等优势,比较适合于登革热疫情传播与流行等非线性复杂过程的模拟。有研究利用BP神经网络方法构建的预测其他一些传染病流行情况模型也取得了较好效果[18-20]。据此建议,广佛地区与其他登革热疫情频发的区域可将该方法作为加强登革热疫情预测的一个有效手段。

本研究存在一定的局限性。首先,尽管本研究已考虑影响疫情传播与流行的诸多地理环境因素,但传播媒介(白纹伊蚊)密度、交通路网、防控措施与资源部署力度、个人行为和习惯等因素并未纳入模型,未来研究中应将此类重要因素信息(数据)纳入模型以提升其可操作性和预测效果;其次,受样本采集的时间范围限制(仅2014年疫情高峰时段),该模型方法的稳定性和可靠程度还有待进一步验证和提升;最后,受所收集地理环境要素时间分辨率(月)的影响,本研究设定其影响的滞后时间为1个月,后续研究中应提高此类要素的时间分辨率(周、旬或半个月),以进一步提高模型的预测能力。

综上所述,基于BP神经网络模型构建登革热疫情预测模型可用于广佛地区登革热疫情的预测,为广佛地区等登革热疫情频发区域有效开展疫情防控工作提供重要的方法参考。

参考文献
[1]
毛祥华, 张再兴. 中国登革热的流行现状[J]. 中国病原生物学杂志, 2007, 2(5): 385-388.
[2]
熊益权, 陈清. 1978-2014年我国登革热的流行病学分析[J]. 南方医科大学学报, 2014, 34(12): 1822-1825. DOI:10.3969/j.issn.1673-4254.2014.12.24
[3]
孟凤霞, 王义冠, 冯磊, 等. 我国登革热疫情防控与媒介伊蚊的综合治理[J]. 中国媒介生物学及控制杂志, 2015, 26(1): 4-10.
[4]
张顺先, 王英, 闫磊, 等. 我国2005-2012年登革热流行特征分析[J]. 中国医药指南, 2013, 11(16): 401-402. DOI:10.3969/j.issn.1671-8194.2013.16.309
[5]
邹钦. 广东省2014年登革热疫情防控实践与思考[J]. 中华卫生杀虫药械, 2015, 21(6): 630-632.
[6]
Liu CX, Liu QY, Lin HL, et al. Spatial analysis of dengue fever in Guangdong province, China, 2001-2006[J]. Asia Pac J Public Health, 2014, 26(1): 58-66. DOI:10.1177/1010539512472356
[7]
李国栋, 张俊华, 焦耿军, 等. 气候变化对传染病暴发流行的影响研究进展[J]. 生态学报, 2013, 33(21): 6762-6773.
[8]
吴烽, 钟玉清, 陈胤瑜. 登革热传入性风险评估指标体系的研究[J]. 现代预防医学, 2006, 33(10): 1964-1966. DOI:10.3969/j.issn.1003-8507.2006.10.097
[9]
易彬樘. 中国登革热流行及控制概况[J]. 中国公共卫生, 2002, 18(9): 1128-1130. DOI:10.11847/zgggws2002-18-09-63
[10]
Arav-Boger R, Boger YS, Foster CB, et al. The use of artificial neural networks in prediction of congenital CMV outcome from sequence data[J]. Bioinform Biol Insights, 2008, 2: 281-289.
[11]
谢旭, 任金马, 牟瑾, 等. 深圳市肠道传染病与气象及媒介因素的贝叶斯正规化BP神经网络模型[J]. 医学动物防制, 2007, 23(7): 485-488.
[12]
樊景春, 林华亮, 吴海霞, 等. 广东省2006-2011年登革热时空分布特征[J]. 中国媒介生物学及控制杂志, 2013, 24(5): 389-391.
[13]
桑少伟, 刘起勇. 广东省2003-2012年登革热本地病例时空分析[J]. 中国媒介生物学及控制杂志, 2015, 26(5): 451-453.
[14]
易彬樘, 张治英, 徐德忠, 等. 广东省登革热及媒介种群的空间分布[J]. 第四军医大学学报, 2003, 24(17): 1623-1626. DOI:10.3321/j.issn:1000-2790.2003.17.033
[15]
Tian HY, Huang SQ, Zhou S, et al. Surface water areas significantly impacted 2014 dengue outbreaks in Guangzhou, China[J]. Environ Res, 2016, 150: 299-305. DOI:10.1016/j.envres.2016.05.039
[16]
岳玉娟, 鲁亮, 刘起勇. 基于遥感-地理信息系统的登革热疫情与环境要素的关系研究[J]. 疾病监测, 2017, 32(6): 458-461. DOI:10.3784/j.issn.1003-9961.2017.06.005
[17]
陈纯, 郑红英, 张周斌, 等. 气象因素对广州市虫媒传染病发病影响研究[J]. 疾病监测, 2016, 31(12): 984-988. DOI:10.3784/j.issn.1003-9961.2016.12.004
[18]
曲波, 黄德生, 郭海强, 等. 干旱地区伤寒副伤寒与气象因素关系的BP神经网络模型[J]. 中国卫生统计, 2004, 21(3): 165-167.
[19]
曲波, 黄德生, 郭海强, 等. 流行性脑脊髓膜炎与气象因素关系的BP神经网络模型研究[J]. 中国医科大学学报, 2006, 35(2): 158-159, 165.
[20]
陈涛. 基于BP神经网络的艾滋病预测模型[J]. 科学技术与工程, 2007, 7(16): 4176-4178. DOI:10.3969/j.issn.1671-1815.2007.16.048