中国公共卫生  2017, Vol. 33 Issue (6): 942-945   PDF    
疟疾与气象因素关系不同模型预测效果比较
温亮1, 林明和2, 李承毅1, 李申龙1, 王勇1, 孙海龙1, 张文义1    
1. 军事医学科学院疾病预防控制所全军疾病监测中心, 北京 100071;
2. 海南省万宁市卫生防疫站
摘要目的 分析气象因素与海南省万宁市疟疾发病率的相关性,比较BP神经网络模型和逐步回归模型对疟疾发病率的预测效果。方法 收集1995年1月—2007年12月万宁市每月气象数据和疟疾发病率数据,应用Spearman等级相关分析方法分析气象因素与疟疾发病率之间的相关性,分别用BP人工神经网络方法和逐步回归方法建立疟疾发病率的气象因子拟合模型,预测2008年各月的疟疾发病率。结果 万宁市疟疾月发病率与前1个月的平均气温、最高气温、最低气温、降雨量、日照时间均呈正相关(均P < 0.05),与前1个月的平均相对湿度、平均气压均呈负相关(均P < 0.01);将7种气象因素作为输入变量,疟疾发病率作为输出变量,构建内含1个隐含层的BP神经网络模型,在隐单元数为16时拟合效果最优,经过300次训练达到设定的最小训练误差为0.001,模型的均方误差和决定系数R2分别为0.002 7和0.99;将7种气象因素作为自变量,疟疾发病率作为因变量构建逐步回归模型,进入模型的变量为平均气温和平均相对湿度,模型的决定系数R2为0.40;应用2种模型对2008年各月疟疾发病率进行预测,平均绝对误差分别为1.24/10 000和0.44/10 000。结论 万宁市疟疾发病率与气象因素明显相关,利用气象因素构建的BP神经网络模型较逐步回归模型具有更好的发病率拟合效果,但逐步回归模型的预测效果更好,BP神经网络模型的泛化能力需要进一步提高。
关键词疟疾     气象因素     BP神经网络模型     逐步回归模型     预测效果    
Effectiveness of back propagation neural network model and stepwise regression in prediction of malaria incidence with meteorological factors
WEN Liang, LIN Ming-he, LI Cheng-yi, et al     
Department of Disease Surveillance, Institute of Disease Control and Prevention of People's Liberation Army, Academy of Military Medical Sciences, Beijing 100071, China
Abstract: Objective To analyze the correlation between meteorological factors and the incidence of malaria in Wanning municipality (Wanning) of Hainan province, and to establish back propagation(BP)neural network model and stepwise regression model of malaria incidence and then to evaluate the predictive effect of the two models. Methods Monthly meteorological data and incidences of malaria in Wanning from January 1995 through December 2007 were collected; Spearman's rank correlation was applied to analyze the association between the meteorological factors and the incidences of malaria.BP neural network method and stepwise regression method were adopted to establish fitting models of malaria incidence by introduced meteorological parameters using Matlab 7.0 and SPSS software; monthly malaria incidence in 2008 was estimated with the two models constructed. Results The incidence of malaria in Wanning was positively correlated with average air temperature, maximum temperature, minimum temperature, rainfall, and sunshine time in the previous month (P < 0.05 for all), and negatively correlated with average relative humidity and air pressure (both P < 0.01).A BP neural network model containing a hidden layer was established with 7 meteorological factors as the input variables and the incidence of malaria as the output variable; the model with 16 hidden units presented the best fitting, with the minimum training error of 0.001 after 300 training epochs; the mean square error and determination coefficient (R2) of the model were 0.0027 and 0.9900, respectively.With the same 7 input variables and the one output variable, a stepwise regression model was also established and average air temperature and relative humidity were introduced into the model, and the R2 of the model was 0.40.The monthly malaria incidence in Wanning were predicted using the two models established and the mean absolute error of the prediction was 1.24/10 000 and 0.44/10 000, respectively. Conclusion There is a significant correlation between the incidence of malaria and the meteorological factors in Wanning.The fitting efficiency of BP neural network model established with meteorological factors is higher than that of stepwise regression model, but the prediction efficiency is relatively lower, suggesting the generalization capacity of the BP neural network model needs to be improved.
Key words: malaria     meteorological factor     back propagation neural network model     stepwise regression model     prediction effect    

虽然近年来全球疟疾控制取得了显著而持久的进展,但疟疾目前仍是全球最受关注的传染病之一。据估计,2013年全球有33亿人口处于疟疾感染的危险中,疟疾新发病例1.98亿,58.4万人死于疟疾[1]。对疟疾流行趋势进行预测有助于提前采取有针对性的防控措施并合理地配置卫生资源。因此构建灵敏的疟疾流行早期预警方法是疟疾防控工作的研究内容之一。气象因素是疟疾流行的重要影响因素,针对特定地区建立疟疾气象预测模型是构建疟疾早期预警系统的重要方法[2]

人工神经网络是模拟生物神经网络进行信息处理的一种数学模型,它具有大规模并行分布式结构、自主学习能力以及由此而来的泛化能力[3]。Back propagation(BP)神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一,在统计学领域主要将它应用在预测、判别分类问题中,近年来也常用于解决医学领域的问题[4-8]

万宁市位于中国海南岛东南沿海,是中国著名的疟疾高发区。万宁疟疾流行具有明显的季节性,市内高疟区主要分布于西南部山区丘陵地带,主要媒介是大劣按蚊和微小按蚊。为分析气象因素与万宁市疟疾发病率的相关性, 比较BP神经网络模型和逐步回归模型对疟疾发病的预测效果,本研究收集1995年1月-2007年12月万宁市每月气象数据和疟疾发病率数据,应用Spearman等级相关分析方法分析气象因素与疟疾发病率之间的相关性,分别用BP人工神经网络方法和逐步回归方法建立疟疾发病率的气象因子拟合模型,预测2008年各月的疟疾发病率。结果报告如下。

1 资料与方法 1.1 资料来源

收集1995年1月-2008年12月万宁市疟疾月发病率数据,数据由万宁市卫生防疫站提供。1995年1月-2002年12月万宁市每月平均气温、最高气温、最低气温、平均相对湿度、降雨量、日照时间、平均气压数据由海南省气象局提供,2003年1月-2008年12月相应数据由国家统计局提供。

1.2 统计分析

应用SPSS 15.0统计软件进行Spearman等级相关分析,分析气象因素与疟疾发病率的相关性,并构建疟疾发病率的逐步回归模型。应用matlab 7.0软件构建疟疾发病率的BP神经网络模型,输入层数据为1995年1月-2007年11月各月气象数据,输出层数据为1995年2月-2007年12月各月疟疾发病率。用premnmx函数将神经网络输入层数据和输出层数据进行归一化变换,使其值范围为[-1, 1]。本研究采用含一个隐含层的神经网络结构[3, 9],参考公式确定隐含层单元的数量范围,其中N为输入单元数,M为输出单元数,a为1~10的常数[10],通过改变常数a的数值来改变隐含层单元个数h的方法对网络进行训练和调整,直到训练误差达到预先设定的误差最小值为止。本研究预设网络最小训练误差为0.001,最大训练次数为10 000,学习率为0.02,其他参数采用系统默认值。网络训练采用Levenberg-Marquardt训练方法,其训练函数为trainlm。隐含层激活函数为tansig函数,输出层激活函数为purelin函数。该网络的初始结构为:net=newff(minmax(p), [m, n], {‘tansig’, ‘purelin’}, ‘trainlm’)。其中minmax(p)为网络输入p的取值范围,m为隐单元数,n为输出单元数,由于输出单元为疟疾发病率,故n=1。采用决定系数R2检验神经网络模型的拟合效果,其值越接近1,说明模型拟合效果越好。将2007年12月-2008年11月的气象数据分别代入BP神经网络模型和逐步回归模型,分别得到2种模型2008年1-12月的疟疾发病率预测值,利用预测值的平均绝对误差比较2种模型的预测效果。

2 结果 2.1 气象因素与疟疾发病率的相关性(图 1)
图 1 万宁市1995-2007年气象状况及疟疾月发病率时间序列

万宁市1995-2007年各月疟疾发病率及平均气温、最高气温、最低气温、平均相对湿度、降雨量、日照时间、平均气压变化情况见图 1。相关分析结果显示,疟疾的月发病率与其前1个月的平均气温(r=0.61,P < 0.01)、最高气温(r=0.57,P < 0.01)、最低气温(r=0.54,P < 0.01)、降雨量(r=0.17,p=0.04) 和日照时间(r=0.58,P < 0.01) 均呈正相关,与其前1个月的平均相对湿度(r=-0.29,P < 0.01) 和平均气压(r=-0.59,P < 0.01) 均呈负相关。

2.2 BP神经网络模型构建(表 1)
表 1 BP神经网络模型各神经层单元之间连接权值

将平均气温、最高气温、最低气温、平均相对湿度、降雨量、日照时间、平均气压7种气象因素作为输入变量,疟疾发病率作为输出变量,通过反复调试确定网络隐含层单元数为16时拟合效果最优,即net=newff(minmax(p), [16, 1], {‘tansig’, ‘purelin’}, ‘trainlm’)是效果相对更好的网络。该模型经过300次训练以后达到预先设定的最小误差值为0.001,模型输出结果的均方误差和决定系数R2分别为0.0027和0.9900,网络拟合效果较好。网络输入层与隐含层之间权值和隐含层与输出层之间权值见表 1

2.3 逐步回归模型构建

对疟疾发病率的正态性检验结果显示,疟疾发病率为非正态分布(W=0.14, P < 0.01)。为进行逐步回归分析,对发病率进行平方根转换,转换后数据符合正态分布(W=0.99, p=0.15)。将平均气温、最高气温、最低气温、平均相对湿度、降雨量、日照时间、平均气压7种气象因素作为自变量,疟疾发病率作为因变量构建逐步回归模型,结果显示,进入模型的变量为平均气温和平均相对湿度,疟疾发病率的逐步回归模型为:月发病率=(1.76+0.06×前1个月平均气温-0.03×前1个月平均相对湿度)2,模型的决定系数R2为0.40。

2.4 2种模型预测效果比较(表 2)
表 2 万宁市2008年1-12月逐步回归模型和BP神经网络模型疟疾发病率(1/10 000) 预测值比较

应用BP神经网络模型和逐步回归模型预测万宁市2008年1-12月的疟疾发病率,2种模型预测值的平均绝对误差分别为1.24/10 000和0.44/10 000,逐步回归模型的预测效果优于BP神经网络模型。

3 讨论

研究表明,海南省疟疾流行的消长与气象因素密切相关,可以利用气象因子对疟疾发病率进行预测。本研究结果显示,万宁市的疟疾发病率与前1月平均气温、最高气温、最低气温、降雨量和日照时间均呈正相关,与其前1月平均相对湿度和平均气压均呈负相关。与江苏[13]、西藏墨脱[14]、广东广州[15]等地区疟疾发病率与相对湿度呈正相关不同,万宁市疟疾发病率与相对湿度呈负相关,与在云南省热带雨林地区进行的一项调查结果一致[16],同时与尼泊尔的一项调查结果一致[17]。有研究表明,相对湿度> 60%地区的相对湿度就不再成为疟疾传播的限制性因素[18],这种高湿度通过何种机制形成与疟疾发病率的负相关仍需进一步研究。

有研究认为人工神经网络预测法较传统的回归预测法预测效果更好[19, 20]。本研究在相关性分析基础上,尝试应用BP神经网络建模方法构建疟疾发病率的气象因素预测模型,并对其预测效果与常用的逐步回归方法建立的预测模型进行比较。研究结果显示,应用所建立的BP神经网络模型进行回代预测,仿真误差为0.002 7,决定系数R2为0.990 0,说明该模型对训练数据集有非常好的拟合效果。但在对训练集外的样本进行预测时,平均绝对误差为1.24/10 000,大于回归模型预测值平均绝对误差的0.44/10 000,提示BP神经网络模型虽然拟合效果优异,但外推能力尚不够强大。

对疾病的流行趋势进行预测,是流行病学研究的一个热点领域。传统的统计预测如回归预测模型常常要求指标满足正态性、独立性条件,并且在处理复杂非线性问题时存在一定的局限性,而神经网络是一种非线性映射系统,且不要求变量满足正态性、独立性等条件,所以神经网络是一种非传统的信息处理系统。数学理论已证明BP神经网络具有实现任何复杂非线性映射的功能,能以任意精度逼近任何非线性连续函数[21],因此对变量间的非线性关系具有较高的建模和拟合能力,常被用于预测和判别分类。但人工神经网络应用中也存在一些问题,例如对于神经网络的类型和结构的选取目前并无统一的标准,而网络结构、神经元数目和神经元类型的选取可直接影响网络的性能。网络隐含层单元数目的选择需要根据设计者的经验和多次实验来确定,不存在一个理想的解析式来表示。当网络的训练样本过多,受到个别特殊样本及噪声的影响,网络学习会出现“过拟合”现象[22-23],不能得到样本内含的规律,从而丧失网络的泛化能力,即网络对新样本的预测能力。另外,神经元之间权重系数的假设检验以及流行病学意义等也需要进一步研究。本研究结果显示,BP神经网络模型用于疟疾发病率的预测效果并不优于传统的逐步回归模型,如何结合具体问题对BP神经网络模型进行改进,提高其泛化能力,仍需进一步研究。

参考文献
[1] World Health Organization.World malaria report 2014[EB/OL].[2015-10-15].http://www.who.int/malaria/publications/world_malaria_Report_2014/en/.
[2] World Health Organization.Malaria Early Warning Systems-a framework for field research in Africa[EB/OL].[2015-10-10].http://apps.who.int/iris/handle/10665/66848.
[3] 张良均, 曹晶, 蒋世忠. 神经网络实用教程[M]. 北京: 机械工业出版社, 2008: 9.
[4] 黎健, 顾君忠, 毛盛华, 等. BP人工神经网络模型在上海市感染性腹泻日发病例数预测中的应用[J]. 中华流行病学杂志, 2013, 34(12): 1198–1202.
[5] 马晓梅, 隋美丽, 段广才, 等. 手足口病重症化危险因素BP神经网络模型预测分析[J]. 中国公共卫生, 2014, 30(6): 758–761. DOI:10.11847/zgggws2014-30-06-20
[6] Çelik G, Baykan ÖK, Kara Y, et al. Predicting 10-day mortality in patients with strokes using neural networks and multivariate statistical methods[J]. J Stroke Cerebrovasc Dis, 2014, 23(6): 1506–1512. DOI:10.1016/j.jstrokecerebrovasdis.2013.12.018
[7] Xu JF, Xu J, Li SZ, et al. Transmission risks of schistosomiasis japonica:extraction from back-propagation artificial neural network and logistic regression model[J]. PLoS Negl Trop Dis, 2013, 7(3): e2123. DOI:10.1371/journal.pntd.0002123
[8] Hu L, Wang F, Xu J, et al. Prediction of liver injury using the BP-ANN model with metabolic parameters in overweight and obese Chinese subjects[J]. Int J Clin Exp Med, 2015, 8(8): 13359–13364.
[9] MATLAB中文论坛. MATLAB神经网络30个案例分析[M]. 北京: 北京航空航天大学出版社, 2010: 1-20.
[10] 沈花玉, 王兆霞, 高成耀, 等. BP神经网络隐含层单元数的确定[J]. 天津理工大学学报, 2008, 24(5): 13–15.
[11] 温亮, 徐德忠, 王善青, 等. 海南省疟疾发病情况及利用气象因子进行发病率拟合的研究[J]. 中华疾病控制杂志, 2003, 7(6): 520–524.
[12] 肖丹. 海南省疟疾疫情时空分布特征及预测模型的构建与评估研究[D]. 西安: 第四军医大学博士学位论文, 2011
[13] 成芳. 气候因素与江苏省常见传染病发病关联的研究[D]. 南京: 南京信息工程大学硕士学位论文, 2014
[14] Huang F, Zhou S, Zhang S, et al. Temporal correlation analysis between malaria and meteorological factors in Motuo County, Tibet[J]. Malaria Journal, 2011, 10: 54–61. DOI:10.1186/1475-2875-10-54
[15] Li T, Yang Z, Wang M, et al. Temperature, relative humidity and sunshine may be the effective predictors for occurrence of malaria in Guangzhou, southern China, 2006-2012[J]. Parasites and Vectors, 2013, 6: 155–158. DOI:10.1186/1756-3305-6-155
[16] Tian L, Bi Y, Ho SC, et al. One-year delayed effect of fog on malaria transmission:a time-series analysis in the rain forest area of Mengla County, south-west China[J]. Malaria Journal, 2008, 7: 110–118. DOI:10.1186/1475-2875-7-110
[17] Dhimal M, O'Hara RB, Karki R, et al. Spatio-temporal distribution of malaria and its association with climatic factors and vector-control interventions in two high-risk districts of Nepal[J]. Malaria Journal, 2014, 13: 457–470. DOI:10.1186/1475-2875-13-457
[18] Bai L, Morton LC, Liu Q. Climate change and mosquito-borne diseases in China:a review[J]. Globalization and Health, 2013, 9: 10–31. DOI:10.1186/1744-8603-9-10
[19] 谭立云, 刘海生, 谭龙. 逐步线性回归与神经网络预测的算法对比分析[J]. 华北科技学院学报, 2014, 11(5): 60–65.
[20] Caocci G, Baccoli R, Vacca A, et al. Comparison between an artificial neural network and logistic regression in predicting acute graft-vs-host disease after unrelated donor hematopoietic stem cell transplantation in thalassemia patients[J]. Exp Hematol, 2010, 38(5): 426–433. DOI:10.1016/j.exphem.2010.02.012
[21] 王俊杰, 陈景武. BP神经网络在疾病预测中的应用[J]. 数理医药学杂志, 2008, 21(3): 259–262.
[22] 王恺, 杨巨峰, 王立, 等. 人工神经网络泛化问题研究综述[J]. 计算机应用研究, 2008, 25(12): 3525–3528. DOI:10.3969/j.issn.1001-3695.2008.12.002
[23] 赵远东, 胡为尧. 人工神经网络泛化性能改进[J]. 南京信息工程大学学报:自然科学版, 2011, 3(2): 164–167.