中国公共卫生  2016, Vol. 32 Issue (1): 48-52   PDF    
湖南省手足口病发病趋势SARIMA模型预测
杨仁东1, 胡世雄2 , 邓志红2, 罗垲炜2, 彭扬琴1, 孙振球1, 曾小敏1     
1. 中南大学公共卫生学院流行病与卫生统计学系, 湖南长沙 410078;
2. 湖南省疾病预防控制中心传染病预防控制科
摘要: 目的 建立湖南省手足口病发病趋势的SARIMA模型,为手足口病的预防和控制提供参考依据。 方法 收集中国疾病预防控制信息系统2008年5月-2013年12月湖南省手足口病月发病率数据建模,以2014年1-7月的月发病率数据进行验证,并对2014年8月-2015年7月发病情况进行预测;应用SPSS 18.0中的"Define Dates"模块和"ForeCasting"模块进行分析,建立季节性差分自回归移动平均模型(SARIMA)。 结果 湖南省手足口病月发病率发病趋势预测模型为SARIMA(1,0,0)(1,1,0)12,模型自回归参数AR1=0.765,(t=8.789,P<0.001),残差为白噪声(Ljung-Box Q=15.420,P=0.494),预测值与实际值的相对误差范围为6.90%~46.31%,平均相对误差为20.37%;预测2014年发病率2次高峰分别在5月份和11月份,均高于2013年同月份的发病率;2015年上半年高峰期也在5月份,低于2014年同月份的发病率。 结论 SARIMA(1,0,0)(1,1,0)12拟合效果较好,可用于湖南省手足口病月发病率的短期预测。
关键词: 手足口病     季节性差分自回归移动平均模型(SARIMA)     时间序列    
Predication of hand,foot and mouth disease incidence in Hunan province using SARIMA model
YANG Ren-dong, HU Shi-xiong , DENG Zhi-hong, et al    
Department of Epidemiology and Health Statistics, School of Public Health, Central South University, Changsha, Hunan Province 410078, China
Abstract: Objective To establish a seasonal autoregressive integrated moving average(SARIMA)model to predicate incidence trend of hand,foot and mouth disease(HFMD)in Hunan province for effective control of the disease. Methods Data on monthly incidence of HFMD from May 2008 to December 2013 were collected from "China Information System for Disease Control and Prevention" for the construction of the SARIMA model and then the established model was verified based on HFMD incidence data from January to July of 2014;finally monthly HFMD incidences from August 2014 to July 2015 were predicted with the model established.Modules of Define Dates and ForeCasting in SPSS 18.0 were used in the analyses. Results SARIMA(1,0,0)(1,1,0)12 was established for monthly HFMD incidence in Hunan province;the autoregressive model parameter of AR1 was 0.765(t=8.789,P<0.001)and the residuals of the model were white noise(Ljung-Box Q=15.420,P=0.494).The relative error between actual and predicted values ranged from 6.90% to 46.31% and the average of the relative error was 20.37%.Based on the predication of the model,the incidence peak of HFMD in 2014 would be around in May and November,and the peak incidences in 2014 would be higher than those in same months of 2013 and a peak incidence in the first half year of 2015 would occur in May and could be lower than that in the same month of 2014. Conclusion The established SARIMA(1,0,0)(1,1,0)12model is of good fitting effect and could be applied in short-term predication of HFMD incidence in Hunan province.
Key words: hand,foot and mouth disease     seasonal autoregressive integrated moving average model     time series    


手足口病是以肠道病毒enterovirus 71(EV71)和Coxsackievirus A 16(CoxA16)为主的多种肠道病毒引起的急性传染性疾病,临床表现以手、足、口腔等部位出现斑丘疹、疱疹为主要特征,多发于<3岁学龄前儿童[1]。手足口病于2008年5月被纳入国家丙类法定报告传染病,2009—2013年中国年均报告发病数为170多万,且有逐年上升趋势[2]。据报道,湖南省手足口病疫情一直呈高发态势,2010和2012年,不仅发病数占全国前5位,重症病例、死亡病例报告数也是全国重点地区[3],其预防和控制问题事关重大。传染病研究中的数学建模分析结果能提供一定的理论基础和概念,通过数学模型可发现传染病的传播机制,预测传染病的流行趋势[4]。季节性差分自回归移动平均模型(seasonal autoregressive integrated moving average model,SARIMA)属于时间序列模型的一种,是将非平稳时间序列平稳化,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型,用于对过去的变化趋势延续到未来的数据资料进行分析[5],是目前国内常用的传染病预测模型之一,在手足口病预测领域也有广泛应用[6]。本研究拟采用SARIMA模型对湖南省手足口病疫情进行预测,为湖南省手足口病的防控提供科学依据。

1 资料与方法 1.1 资料来源

资料来源于“中国疾病预防控制信息系统”中2008年5月—2014年7月按发病日期统计的湖南省各月手足口病报告月发病率,包括临床诊断病例和实验室诊断病例。

1.2 统计分析

采用SPSS 18.0软件进行统计分析。以2008年5月—2013年12月的手足口病月发病率数据为基础,在“Define Date”模块和“ForeCasting”模块中分析,通过创建时间序列、数据平稳化处理、模型的识别、模型的参数估计和白噪声检验等步骤建立模型[7, 8],对2014年1月—2015年7月的发病率进行预测,并以2014年1-7月的实际数据进行验证。SARIMA模型建立在差分自回归移动平均模型(autoregressive integrated moving average model,ARIMA)[9]基础上,增加了对季节性和周期性的分析。SARIMA模型的数学表达式为:φ(B)(1-B)dφ(BS)(1-BS)DYt=ψ(B)Φ(BS)εt。其中,Yt1Yt-12Yt-2+…+φpYt-pt1εt-12εt-2-…-ψqεt-q;φ(B)=1-φ1B12B2-…-φpBp,φ(BS)=1-φ1BS,12BS,2-…-φpBS,P;ψ(B)=1-ψ1B-ψ2B2-…-ψpBq,Φ(BS)=1-Φ1BS,12BS,2-…-ΦQBS,Q。B是后移算子,p是AR(p)项的阶数,q是MA(q)项的阶数,d是简单差分的阶数;εt是时间序列在t期的误差或偏差,εt-p是时间序列在t期的误差或偏差;P是SAR(P)项的阶数,Q是SMA(Q)项的阶数,D是季节性差分的阶数。SARIMA模型可以表示为SARIMA(p,d,q)×(P,D,Q)S,包含非季节性部分(p,d,q)和季节性部分(P,D,Q)S,非季节性部分即ARIMA(p,d,q)[10]

2 结 果 2.1 创建时间序列(图 1)

以2008年5月为第1个个案时间定义日期,创建时间序列,生成2008年5月—2013年12月湖南省手足口病疫情月发病率的序列图。图 1显示,湖南省手足口病疫情月发病情况存在明显的周期性和季节性,约12个月为1个周期,每年5—7月出现第1次大高峰,11月出现第2次小高峰,属于不平稳序列。

图 1 湖南省2008—2013年手足口病月发病率(1/10万)
2.2 数据平稳化处理(图 2~4)

为了降低方差以及消除季节性的影响,对原始时间序列进行1次平方根转换和1次季节性差分。图 2显示,进行1次季节性差分后的序列接近平稳,由此初步暂定SARIMA(p,d,q)×(P,D,Q)12模型中的d和D分别为0和1。图 3显示,自相关系数(auto correlation function,ACF)呈缓慢余弦周期性衰减,拖尾,具有伪周期性,提示是平稳序列。图 4显示,偏自相关系数(partial auto correlation function,PACF)在滞后值lag=13处近似截尾。

图 2 湖南省2008—2013年手足口病月发病率季节性差分序列图

图 3 湖南省2008—2013年手足口病月发病率季节性差分ACF图
2.3 模型的识别及参数估计(表 1)

对比常见ARIMA模型自相关分析标准图,提示为AR过程,可以确定模型中非季节性部分中的p和q分别为1和0,模型可暂定为SARIMA(1,0,0)(P,1,Q)12。对于季节性部分的P、Q,分别取值0、1和2进行逐个试验。表 1显示,9种备选模型的平稳R2、均方根误差和标准化的贝叶斯信息准则(Bayesian information criterion,BIC)值相差不大,其中SARIMA(1,0,0)(0,1,0)12模型的Ljung-Box Q统计量的P<0.05,故可先排除。结合9种备选模型的参数估计表(表 2)可知,所有的参数均有统计学意义的模型有SARIMA(1,0,0)(0,1,0)12(已排除)、SARIMA(1,0,0)(1,1,0)12,故最终选择的模型为SARIMA(1,0,0)(1,1,0)12,该模型的平稳的R2为0.779,均方根误差为0.653,标准化的BIC值为-0.637。

图 4 湖南省2008—2013年手足口病月发病率季节性差分PACF图

表 1 备选9种模型的模型拟合和统计

表 2 9种备选模型的参数估计
2.4 白噪声检验(图 5)

对选定的模型进行白噪声检验,残差的ACF和PACF图见图 5图 5显示,残差的ACF和PACF均在95%CI以内,且Ljung-Box Q=15.420,P=0.494,残差序列为白噪声,表明拟合的该模型合理。

图 5 模型SARIMA(1,0,0,)(1,1,0)12残差序列ACF、PACF图
2.5 模型预测(图 6表 34)

用选定的SARIMA(1,0,0)(1,1,0)12模型对2014年1月-2015年8月的湖南省手足口病月发病率情况进行预测,其预测值和95% confidence interval(95%CI)见表 34图 6显示,观测值与拟合值的重合度较高,基本均在拟合值的95%CI以内。预测2014年湖南省手足口病发病率第1次高峰在5月份,第2次高峰在11月份,2次高峰期的发病率均高于2013年同月份的发病率;2015年上半年高峰期也在5月份,高峰期的发病率低于2014年同月份的发病率。以2014年1—7月湖南省手足口病的实际月发病率对模型进行验证。表 3显示,预测值与实际值的相对误差绝对值范围为6.90%~46.31%,平均相对误差为20.37%。

表 3 湖南省2014年1—7月手足口病月发病率预测值与实际值比较

图 6 湖南省2008—2015年手足口病月发病率趋势预测图

表 4 湖南省2014年8月—2015年7月手足口病月发病率预测值
3 讨 论

手足口病具有传染性强、传播途径复杂、传播速度快、隐性感染比例大、发病数多、无疫苗和特异性治疗方法等特点,是近年来备受关注的公共卫生问题。早期的预测和预警,可以了解手足口病疫情发病趋势,为防控提供重要的参考依据。

ARIMA模型只考虑时间序列的长期趋势,采取简单差分使得非平稳序列接近平稳;SARIMA模型在ARMIA模型的基础上,增加了对季节性和周期性的分析,考虑更加全面,可以采取季节性差分和(或)简单差分使得序列趋于平稳[11, 12]。手足口病发病率时间序列往往具有长期趋势、周期性和季节性,适合用SARIMA模型拟合。SARIMA模型属于时间序列模型,基于历史数据来建模,不同省市各自建立的模型只适用于本省市,并不适用于其他地区。单次建立的SARIMA模型不能作为一成不变的预测工具[13, 14],只能用于短期预测。使用SARIMA模型长期地进行预测,需不断更新数据,重新拟合新的模型。在建立SARIMA模型的过程中,数据平稳化后各个备选模型的平稳R2等参数相差不大,提示数据的平稳化处理是关键步骤。不过,单从时间序列图、ACF以及PACF图来选择差分、季节性差分等处理方法,存在一定的主观性,故为了得到较好的模型,需要多次重复数据处理、模型参数评估等步骤[15, 16, 17]

本文采用SARIMA(1,0,0)(1,1,0)12模型对湖南省手足口病月发病率趋势进行预测,预测值与实际值的平均相对误差为20.37%,低于黄晓霞等[16]拟合的全国手足口病月发病率SARIMA(1,0,0)(0,1,0)12模型的平均相对误差(28.62%),拟合较好。通过月发病率趋势图可以直观、清楚得看出模型的拟合情况以及未来几个月湖南省手足口病疫情的发病情况、走向趋势。通过模型得到的预测值的95%CI可以用于预警,实际值若在95%CI以内,则疫情正常;若开始超过95%CI的上限(预警线),则可以发出及时的预警,提醒疾病预防控制部门加强防控[8]。本次研究的是单次建立的SARIMA模型,有较好的短期预测效果。为了得到较好的湖南省手足口病长期预测模型,有待后续研究中不断更新数据,重新拟合新的模型。

参考文献
[1] 卫生部办公厅.手足口病诊疗指南(2010年版)[J].柳州医学,2012,25(2):140-143.
[2] 国家卫生计生委疾病预防控制局(全国爱国卫生运动委员会办公室).全国法定传染病疫情情况[EB/OL].(2014-02-13).[2015-11-15] .http://www.nhfpc.gov.cn/jkj/pgzdt/list_2.shtml.
[3] 王丙刚,曲波,郭海强,等.传染病预测的数学模型研究[J].中国卫生统计,2007,24(5):536-540.
[4] 时照华.探索ARIMA模型在呼吸道传染病疫情预测中的应用[D].合肥:安徽医科大学硕士学位论文,2013.
[5] 肖洪,田怀玉,赵暕,等.传染病模型分析与预测方法研究进展[J].中华流行病学杂志,2011,32(1):81-85.
[6] Box GEP,Jenkins G.Time series analysis:forecasting and control[M].San Francisco:Holden Day,1976:305-320.
[7] 杨召,叶中辉,尤爱国,等.乘积季节ARIMA模型在结核病发病率预测中应用[J].中国公共卫生,2013,29(4):469-472.
[8] 石雷.细菌性痢疾月发病率ARIMA季节模型预测分析[J].中国公共卫生,2014,30(9):1234-1235.
[9] 恩德斯,志超.应用计量经济学:时间序列分析[M].北京:高等教育出版社,2006:92-96.
[10] 张文彤.SPSS 11统计分析教程(高级篇)[M].北京:北京希望电子出版社,2002:630-631.
[11] 王燕.应用时间序列分析[M].北京:中国人民大学出版社,2005:16-90.
[12] 孙振球.医学统计学[M].北京:人民卫生出版社,2013:390-403.
[13] 贾静,郝毕,董礼艳,等.ARIMA模型预测青岛市手足口病发病趋势[J].中国公共卫生管理,2014,30(1):70-72.
[14] 刘涛,王显军,姜宝法,等.SARIMA模型预测山东省手足口病发病趋势[J].中国卫生统计,2013,30(5):697-700.
[15] 杨培荣,田辉,严钏元.自回归移动平均模型在宝鸡市细菌性痢疾月发病率预测中的应用[J].公共卫生与预防医学,2012,23(1):16-19.
[16] 黄晓霞,张顺先,赵俊伟,等.采用自回归移动平均模型预测中国手足口病月发病率[J].疾病监测,2013,28(5):396-399.
[17] 吴孟泉,赵凯.基于ARIMA模型的2009年山东省手足口病疫情分析及预测[J].鲁东大学学报:自然科学版,2011,27(1):71-75.