中国公共卫生  2015, Vol. 31 Issue (7): 936-937   PDF    
深圳市ARIMA在肾综合征出血热发病预测中应用
梅树江1, 周志峰2, 马汉武1 , 周海涛2, 樊丹怡3, 王敬忠1, 李媛1, 李怀昕1, 柯跃斌1    
1. 深圳市疾病预防控制中心传染病防制科, 广东 518055;
2. 深圳市福田区疾病预防控制中心;
3. 深圳市妇幼保健院
摘要目的 建立时间序列分析的自回归求和移动平均(ARIMA)模型,预测深圳市肾综合征出血热(HFRS)发病趋势。方法 深圳市2005—2013年HFRS逐月发病率建立预测深圳市HFRS的最优ARIMA模型,利用2014年逐月HFRS发病率回代来检验模型预测效果,根据预测值与实际值的相对误差判断模型的预测精度,再以2005—2014年HFRS逐月发病率构建模型预测2015年的HFRS发病率。结果 模型ARIMA(1,0,1)(1,0,1)12较好地拟合既往时间段的发病序列,各项参数(AR=0.993,MA=0.926,SAR=0.967,SMA=0.857)均有统计学意义(P<0.01),BIC值=-3.300,Ljung-Box模型统计量Q=20.794,P=0.107,模型残差为白噪声,2014年逐月HFRS发病率的预测值符合实际值的变动趋势,全年发病率预测值与实际值的相对误差率为20.74%。预测2015年深圳市HFRS发病率为4.28/100万 。结论 ARIMA模型能很好地模拟深圳市HFRS发病率在时间序列上的变化趋势,并对未来的发病率进行预测。
关键词肾综合征出血热     时间序列     ARIMA模型     预测    
Application of autoregressive integrated moving average model in incidence rate prediction of hemorrhagic fever with renal syndrome in Shen-zhen city
MEI Shu-jiang, ZHOU Zhi-feng, MA Han-wu , et al    
Department of Infectious Disease Control, Shenzhen Municipal Center for Disease Control and Prevention, Shenzhen, Guangdong Province 518055, China
Abstract: Objective To establish an autoregressive integrated moving average(ARIMA) model for epidemic trend prediction of hemorrhagic fever with renal syndrome(HFRS)in Shenzhen city.Methods ARIMA model was established based on the monthly incidence rate of HFRS in Shenzhen city from 2005 through 2013.The constructed optimal model was applied to predict the incidence rate of HFRS in Shenzhen city in 2014 and to evaluate the validity of the model through comparing the difference of predicted incidence rate and actual one.The incidence rate of HFRS in 2015 was predicted by the ARIMA model based on the incidence rate from 2005 through 2014.Results The model of ARIMA(1,0,1)(1,0,1)12 had a good fitness to the incidence rate and all parameters(AR=0.993,MA=0.926,SAR=0.967,SMA=0.857)of the model were statistically significant(P < 0.01)and Schwarz Bayesian criterion(BIC)=-3.300.The residual error was white noise and the Ljung-Box test statistics for the model was 20.794,with a P value of 0.107.The predicted incidence rate in 2014 was consistent with the actual one,with the relative error of 20.74%.The predicted incidence rate of HFRS in 2015 based on the incidence rate from 2005 through 2014 is 4.28 per billion.Conclusion ARIMA model can be used to simulate changes in HFRS incidence rate and to forecast the incidence rate in future in Shenzhen city.
Key words: hemorrhagic fever of renal syndrome     time series     auto regressive integrated moving average(ARIMA)     prediction    

中国每年的肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)发病人数占世界报道的汉坦病毒感染病例的90%以上,是受HFRS危害最为严重的国家[1]。近30年,深圳市人口快速增长与流动、城市环境不断扩张和更新,HFRS的主要传播媒介——鼠类的增长和活动也在不断发生变化,HFRS的发病趋势和流行范围随着人口流动和城市扩张而不断发生改变[2]。自回归求和移动平均(auto regressive integrated moving average,ARIMA)模型能较准确地模拟和预测传染病发病或死亡[3, 4, 5, 6]。本研究基于深圳市2005—2014年HFRS发病数据,通过建立ARIMA模型,模拟和预测2015年深圳市HFRS发病情况,为深圳市HFRS的防制工作提供科学依据。 1 资料与方法 1.1 资料

疾病数据来源于“中国疾病预防控制信息系统”,选择发病日期在2005年1月1日—2014年12月31日,居住于深圳市的所有确诊HFRS病例,人口数取自深圳市统计局发布的历年深圳市统计年鉴。逐月HFRS发病数均经过各级疫情处置人员的调查核实,在数据的准确性、及时性和完整性方面具有较好的质量保证。 1.2 方法

以每月HFRS发病数除以全市历年平均人口数,求得各月的HFRS发病率进行模型拟合与预测。ARIMA预测模型主要包括3个阶段[7, 8]:(1)模型识别:根据深圳市2005年1月—2013年12月HFRS报告发病率的序列图、自相关系数(autocorrelation coefficient,ACF)函数分析图和偏相关系数(partial autocorrelation coefficient,PACF)函数分析图确定序列的平稳性,初步确定p,q 和 P,Q的值,然后确定入选模型的参数数量和种类,以及它们的组合方式。(2)模型的参数估计与检验:采用非线性最小二乘法对模型识别阶段提供的粗模型进行参数估计和假设检验,并通过模型的残差等诊断统计量判断模型的适合性,利用Schwarz贝叶斯准则(Schwarz Bayesian criterion,BIC)可判定ARIMA模型的拟合优度,采用 Ljung-Box方法进行残差白噪声检验,以标准化的BIC值较小、残差序列为白噪声和较为简洁的模型为最佳模型。(3)评价模型预测效果,并产生预测:用2014年1—12月的实际发病率与预测发病率进行比较,计算相对误差,评价预测效果;最后预测2015年1—12月的HFRS发病率。 1.3 统计分析

采用 Epi Data 3.0软件双录入数据,运用SPSS 18.0软件时间序列分析模块进行统计分析。 2 结 果 2.1 绘制序列图

绘制2005年1月—2013年12月深圳市HFRS发病率的时间序列图,发现该地区HFRS疫情呈季节性波动趋势,每年均有1~2个发病高峰出现,第1个发病高峰多在3—5月,第2个高峰多在11—12月。 2.2 模型的识别

建模前首先需要对原始数据进行平稳化检测。和非季节差分及季节差分后比较,原始数据直接做自相关函数(ACF)分析图显示,余弦周期性的衰减具有伪周期性质,是平稳序列所具备的特征,ACF函数图和偏相关(PACF)函数图显示,自相关系数和偏相关系数均落入置信区间内,可认为原始数据具有随机性和平稳性,所以d和D值为0。在ARIMA(p,0,q)(P,0,Q)12模型中,p、q、P、Q一般情况下不超过2阶,所以备选模型中p、q、P、Q拟在0、1、2中取值组合,进行模型构造。 2.3 参数估计与模型的诊断(表 1)

表 1 HFRS发病率的ARIMA模型参数估计

通过初步确定的参数进行多个模型比较,采用从低阶到高阶逐个尝试方法对模型参数进行组合取值,采用非线性最小二乘法对模型参数进行估计,利用BIC准则判定ARIMA模型的拟合优度,通过多次调试比较后,模型ARIMA(1,0,1)(1,0,1)12(不含常数项)的标准化BIC=-3.300,在拟合比较的所有模型中较小,且满足所有参数均有统计学意义(P < 0.01),确定为ARIMA最终模型。 2.4 模型检验

模型残差自相关系数(ACF)及偏自相关系数(PACF)均落入置信区间内,初步判定此模型已包含原始时间序列的所有特征,Ljung-Box模型统计量Q=20.794,P=0.107,残差序列为白噪,表明用该模型进行预测是合理的。经过上述的模型诊断,可接受模型ARIMA(1,0,1)(1,0,1)12是最优模型。 2.5 模型的回代检验拟合曲线和预测效果评价

运用模型ARIMA(1,0,1)(1,0,1)12(不含常数项)拟合2005—2013年的逐月HFRS发病率,并预测2014年各月的HFRS发病率。拟合结果表明,模型对实际值进行了较好的跟踪和预测,拟合值与预测值的动态趋势与实际情况基本一致,各月份实际发病率与预测值相差较小,2014年各月HFRS发病率实际值与预测值的绝对误差绝对值最大为0.745 1,最小为0.059 8。2014年HFRS发病率的实际值和预测值分别为5.99/100万和3.91/100万,相对误差率为20.74%。 2.6 预测2015年HFRS发病率

以2005年1月—2014年12月的逐月HFRS发病率数据建立模型ARIMA(1,0,1)(1,0,1)12 ,对2015年1—12月的HFRS发病率进行预测。预测结果每月的HFRS发病率波动在0.18/100万~0.68/100万,将各月HFRS发病率相加求得2015年全年的HFRS发病率预测值为4.28/100万。 3 讨 论

本研究通过建立ARIMA模型预测深圳市HFRS发病情况,时间序列图显示,近年来深圳市HFRS整体发病水平较为平稳,每年都有1~2个高峰,主要发生在冬春季节,但不存在明显的上升和下降趋势,和相关报道一致[9]。模型对深圳市HFRS发病率的实际值进行了较好地模拟,预测结果提示深圳市2015年HFRS整体发病情况较为平稳,但存在季节波动现象。通过本次时间序列模型的预测,结合课题组前期开展的深圳市HFRS空间聚集性特征研究结果[2],相关部门可以此为依据,积极采取综合防控措施[10],包括爱卫办在冬春季节前对高发病区域积极开展社区灭鼠活动,医疗机构提升疾病诊断和治疗水平,疾控部门在发病高峰季节前加强高危人群HFRS疫苗接种工作,同时提高对患者的管理和疫点的应急处理能力。

时间序列预测是基于预测对象本身的历史数据随时间发展变化规律,用该变量以往的统计资料建立数学模型而外推的预测方法,它可将自然和社会环境中许多因素的综合效应统一蕴涵于时间变量之中,这是利用它对HFRS发病预测的一个突出优点[11],预测事件时不仅考虑预测变量的历史值,并将模型与历史值产生的误差也作为因素纳入模型,短期预测的精确度高,同时该方法所需历史数据收集相对方便,建模软件成熟可靠,操作相对简单易行,在疾病短期趋势预测中具有良好的应用前景。

HFRS具有病原体的多型性、宿主动物的多样性、传播途径的多样化和发病机制的特殊性和复杂性等特点,本研究所采用的时间序列模型预测方法虽然较好地模拟和预测了深圳市HFRS发病趋势,但无法揭示引起深圳市HFRS发病变化的各种影响因素,在后续的工作中,将综合利用不同方法对影响HFRS发病的各种因素展开进一步研究。

参考文献
[1] 方立群,曹务春,陈化新,等.应用地理信息系统分析中国肾综合征出血热的空间分布[J].中华流行病学杂志,2003,24(4):265-268.
[2] 周志峰,梅树江,周洁,等.深圳市2005—2011年肾综合征出血热空间聚集性特征的研究[J].中国预防医学杂志,2013,14(6):458-461.
[3] 石雷.细菌性痢疾月发病率ARIMA 季节模型预测分析[J].中国公共卫生,2014,30(9):1234-1235.
[4] 黎健,吴寰宇,李燕婷,等.上海市痢疾发病率预测自回归求和移动平均模型的构建与应用[J].中华预防医学杂志,2010,44(1):48-53.
[5] 陈超,田鑫,周剑惠,等.流行性腮腺炎疫情时间序列模型建立与应用[J].中国公共卫生,2012,28(2):252-253.
[6] 吴秀华,王福兴.风疹疫情时间序列模型预测效果评价[J].中国公共卫生,2010,26(11):1375.
[7] 王振龙.时间序列分析[M].北京:中国统计出版社,2002:181-192.
[8] 徐国祥.统计预测和决策[M].上海:上海财经大学出版社,1998:150-17.
[9] 王敬忠,谢旭,梅树江,等.应用圆形分布法分析深圳市肾综合征出血热季节性特征[J].热带医学杂志,2011,11(11):1314-1315.
[10] 邱玉鹏,刘宇.肾综合征出血热调查及防制措施探讨[J].中国公共卫生,2006,22(3):301.
[11] 谭莘,田考聪.数学模型在人群疾病预测研究中的应用[J].中国医院统计,2005,12(1):83-85.