2. 新疆医科大学医学工程技术学院
手足口病(hand-foot-mouth disease)是一种传染性疾病,其发病特征为发热及手、脚和口腔等部位出现皮疹或疱疹[1],可以由多种肠道病毒引起,病原体主要是肠道病毒CA16和EV71。我国在2008年将手足口病列入丙类传染病[2],主要在夏秋两季多发,多见于学龄前儿童,也有成年人病例出现,常常在幼儿园之类的地方流行。该病传染性强, 传播途径和机制也比较复杂[3]。近年来,全国范围内的手足口病发病趋势有所上升,新疆维吾尔自治区从2005年开始进行手足口病的监测工作,本研究选用ARIMA-GRNN组合模型探索其在手足口病发病率拟合和预测方面的应用,利用2009—2015年新疆维吾尔自治区手足口病发病数据,使用ARIMA-GRNN组合模型进行拟合,检验该模型的预测效果,为手足口病预防和监测提供科学依据。
1 资料与方法 1.1 资料来源2009—2015年新疆维吾尔自治区手足口病发病月报告数据资料源自国家人口与健康科学数据共享平台中的公共卫生科学数据中心。人口数据来源于新疆维吾尔自治区2016年统计年鉴。
1.2 方法 1.2.1 ARIMA模型ARIMA模型全称为求和自回归移动平均模型(autoregressive integrated moving average model),又被称为博克思-詹金斯模型,是20世纪70年代提出的一种时间序列预测方法[4],包括三个模型组合:自回归模型AR、移动模型MA、自回归-移动模型ARMA。一般来说,ARIMA模型简记为ARIMA(p, d, q),具有以下结构:
| $ \phi_{\rm p}(B) \nabla^{d} X_{t}=\theta_{\rm q}(B) \varepsilon_{t}, $ | (1) |
式中:фp(B) — p阶自回归多项式,ф(B)=1-ф1B-ф2 B2-…-фpBp;
▽ —后向差分算子;
d —差分次数;
Xt —时刻t的观测值;
θq(B) —阶数为q的移动平均多项式,θ(B)=1-θ,B-θ-B2-…-θqBq;
B —向后推移算子;
εt —白噪声,其期望为E(εt)=0, 方差Var(εt)=θε2满足E(εtεs)=0, t≠s且E(Xsεt)=0,∀s < t。
建模的基本步骤为:①平稳性检验和处理;时间序列平稳才能对时间序列的单变量进行分析[7],根据时间序列所作的散点图,自相关函数(ACF),偏自相关函数(PACF)进行检验[8]。对于非平稳的序列,要先进行差分处理,再进行检验。②模型识别与参数估计;时间序列Xt平稳后的数据,根据自相关序列图(ACF),偏自相关序列图(PACF), 在选择适当的ARIMA (p, d, q)(P, D, Q)s模型的d与D值[9]。p和q一般不容易直接判断,但是一般不会超过2阶,这个过程会产生多个模型,然后进行参数估计[10]。③模型与参数显著性检验;模型的显著性检验主要是为了检验模型的有效性,如果残差序列为非白噪声序列,意味着残差序列中还保留着未被提取的信息,说明拟合模型效果不够,通常需要选择其他模型,重新拟合[11]。④模型优化与预测;若拟合模型通过了检验,则表明在一定置信水平下,该模型能够有效的拟合观察值序列的波动,但是这种模型不唯一,这时可以采用最小信息量准则(AIC)来确定函数值最小的最优模型[12]。优化得到的最优模型经过平均绝对百分比误差(MAPE)指标的检验之后,可进行短期的预测[13]。MAPE计算公式为
| $ \operatorname{MAPE}=\frac{1}{n} \sum_{t=1}^{n} \frac{W_{t}-\hat{W}_{t}}{W_{t}} \times 100 \% $ | (2) |
式中:Wt —实际新发的手足口病数量;
N —观测值数量。
1.2.2 GRNN模型GRNN神经网络全称为广义回归神经网络,有很快的学习速度和很强的非线性映射能力,可以处理不稳定数据,而且在样本数据少的情况下,预测效果较好。广义回归神经网络的表达式为:
| $ \hat{Y}=E\left[\begin{array}{lll} y & | & x \end{array}\right]=\begin{array}{l} \frac{{\int\limits_{-\infty}^{\infty} y f(x, y) d y}}{{ \int\limits_{-\infty}^{\infty} f(x, y) d y}} \end{array}, $ | (3) |
式中:x —输入向量;
y —输出向量,
f(x, y) —x和y的联合概率密度函数;
dy —积分变量。
光滑因子是GRNN模型唯一的参数,不断地调整光滑因子可以训练出最佳的GRNN模型[14]。基本建模步骤为:①数据归一化处理。②选择光滑因子:利用newgrnn()函数拟合GRNN模型,表达式为net=newgrnn(P, T, spread),spread表示为GRNN模型的光滑因子,确定光滑因子之后可以进行预测。
1.3 统计分析以Excel 2007软件建立数据库,使用乘积季节模型ARIMA(p, d, q)(P, D, Q)s拟合数据,其中ARIMA(p, d, q) (P, D, Q)s即为ARIMA(p, d, q) ×(P, D, Q)可以描述任何齐次非平稳时间序列,它是最一般的表示形式,包括AR(p), MA(q), ARMA(p, q), ARIMA(p, d, q), ARIMA(P, D, Q)以及各种组合模型[4], 其中p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
2 结果 2.1 平稳性检验2009—2015年新疆维吾尔自治区新发手足口病的时间序列图如图 1所示,原始时间序列显示为一个非平稳的时间序列,而运用ARIMA模型建模则需要时间序列平稳,所以进行一次差分,根据差分后的平稳序列绘制自相关序列图(ACF)和偏自相关序列图(PACF;图 2)。对差分后ADF单位根进行检验,结果显示ADF检验的t值为-0.53,P < 0.0001, 由此可知,序列已趋于平稳。
|
| 图 1 2009—2015年新疆维吾尔自治区新发手足口病时间序列图 |
|
| 图 2 ACF图和PACF图 |
2.2 模型识别与参数估计
根据图 2初步推断,在ARIMA(p, d, q)(P, D, Q)s模型建模过程中,取p=0、1或2,d=0, q=0、1或2,P=0、1或2, D=1, Q=0。在R软件中使用auto.arima()函数确定模型参数与最优模型,所得结果如表 1。
| 模型 | AIC |
| ARIMA(0, 0, 0)(0, 1, 0)12 | 906.58 |
| ARIMA(1, 0, 0)(1, 1, 0)12 | 862.14 |
| ARIMA(1, 0, 0)(0, 1, 0)12 | 886.23 |
| ARIMA(1, 0, 0)(2, 1, 0)12 | 861.70 |
| ARIMA(2, 0, 0)(2, 1, 0)12 | 854.08 |
| ARIMA(2, 0, 1)(2, 1, 0)12 | 851.52 |
| ARIMA(2, 0, 1)(2, 1, 0)12 | 849.12 |
| ARIMA(2, 0, 1)(1, 1, 0)12 | 851.81 |
| ARIMA(1, 0, 1)(2, 1, 0)12 | 847.38 |
| ARIMA(1, 0, 0)(2, 1, 0)12 | 859.37 |
| ARIMA(1, 0, 2)(2, 1, 0)12 | 848.41 |
| ARIMA(0, 0, 0)(2, 1, 0)12 | 880.12 |
| ARIMA(1, 0, 1)(2, 1, 0)12 | 849.72 |
| ARIMA(1, 0, 1)(1, 1, 0)12 | 849.93 |
| ARIMA(0, 0, 1)(2, 1, 0)12 | 846.91 |
| ARIMA(0, 0, 2)(2, 1, 0)12 | 849.08 |
| ARIMA(0, 0, 2)(1, 1, 0)12 | 849.28 |
根据表 1,可以得到ARIMA(0, 0, 1)(2, 1, 0)12为auto.arima()函数选择的最优模型,然后对ARIMA(0, 0, 1)(2, 1, 0)12的各个参数进行检验,检验结果是模型的参数均通过检验,MR(1), MR(2), SAR(1)及SAR(2)的, 估计值分别为0.95, 0.23, 0.82及0.33;最后,采用R软件的Box.test()函数对该模型进行白噪声检验,P=0.9851,差异无统计学意义,可以认为在建模过程中序列的信息已经被完全提取,确定ARIMA(0, 0, 1)(2, 1, 0)12为最优模型。
2.3 ARIMA模型预测用确定的最优模型,根据2009—2014年的新疆维吾尔自治区新发手足口病数据拟合模型,对2015年的新疆维吾尔自治区新发手足口病数量进行预测,预测序列见图 3,然后与2015年的实际值做比较,预测结果(表 2)显示该模型预测结果与实际发病数量大致吻合趋势一致,平均绝对百分比误差MAPE=19.21%,说明ARIMA(0, 0, 1)(2, 1, 0)12模型对新疆维吾尔自治区手足口病发病的拟合和预测效果较好。
| 月份 | 实际值/例 | 预测值/例 | 95%CI下限 | 95%CI上限 |
| 1 | 46 | 1 | -495 | 462 |
| 2 | 34 | 10 | -652 | 673 |
| 3 | 69 | 78 | -594 | 750 |
| 4 | 279 | 309 | -363 | 981 |
| 5 | 1 001 | 1 364 | 692 | 2 036 |
| 6 | 2 521 | 2 630 | 1 958 | 3 302 |
| 7 | 1 225 | 1 506 | 834 | 2 178 |
| 8 | 453 | 446 | -226 | 1 118 |
| 9 | 267 | 250 | -422 | 922 |
| 10 | 370 | 242 | -430 | 914 |
| 11 | 323 | 236 | -435 | 908 |
| 12 | 145 | 150 | -521 | 823 |
2.4 ARIMA-GRNN组合模型预测
将ARIMA模型拟合出的数据和对应的时间作为GRNN网络的输入,用来训练GRNN网络模型。因为对原始序列做了差分操作,所以用2009年1月的数据训练GRNN网络,随机抽取两个月份的手足口病发病数据作为测试集,用来选择最优光滑因子(Spread)。从0.001开始,依次累加0.001,当Spread为0.03时,对应的均方根误差RMSE最小,为4.328。使用Spread拟合ARIMA-GRNN模型,得到MAE=11.29, RMES=12.33, MAPE=15.63%。由此可知,ARIMA-GRNN组合模型拟合效果比ARIMA效果好。因此可以使用ARIMA-GRNN组合模型对新疆维吾尔自治区新发手足口病数量进行预测,预测结果见表 3。
| 月份 | 实际值/例 | 预测值/例 |
| 1 | 46 | 33 |
| 2 | 34 | 29 |
| 3 | 69 | 101 |
| 4 | 279 | 318 |
| 5 | 1 001 | 1 258 |
| 6 | 2 521 | 2 355 |
| 7 | 1 225 | 1 259 |
| 8 | 453 | 486 |
| 9 | 267 | 272 |
| 10 | 370 | 276 |
| 11 | 323 | 288 |
| 12 | 145 | 150 |
3 讨论
手足口病是一种常见传染病,对人们的身体健康与家庭都有着很大的影响[15],近年来在中国呈现高发趋势。分析可知,2009—2015年新疆维吾尔自治区手足口病发病人数总体有递增趋势,流行从每年的4月份开始,主要集中在5月—7月,以6月发病情况最为严重, 手足口病的发生与日照时间、温湿度等气候因素有关。2012年发病情况突然出现暴发状态,比往年水平要高,可能与易感人群增多有关,因为手足口病发病对象为学龄前儿童,在积累到一定数量易感者之后,很容易出现暴发流行[16]。并且2012年CA16占绝对优势也与暴发有一定关系[16]。
研究利用MATLAB软件和R软件,基于2009—2015年新疆维吾尔自治区新发手足口病数据,使用ARIMA-GRNN组合模型,对2015年新疆维吾尔自治区新发手足口病数量进行预测,结果与2015年新疆维吾尔自治区新发手足口病实际值相差不大,而且都在95%置信区间之内,说明了ARIMA-GRNN组合模型能够对新疆维吾尔自治区新发手足口病数量,而且ARIMA-GRNN组合模型的预测效能也比单纯ARIMA模型要好,能够为手足口病预防预警提供依据。在手足口病预测的研究方面,统计学家们已经做了大量的工作,运用了许多的统计学方法和模型,ARIMA就是其中一种,通过差分能够提取到原始时间序列中所含有的信息,从而获得可信度较高的预测结果。但是,各地发病情况不同,所拟合的模型也存在一定的不同。
研究拟合的ARIMA模型为ARIMA(0, 0, 2)(2, 1, 0)12模型,拟合与预测的结果基本与实际相符合,但是还存在一些缺陷,峰值拟合不够好,2012年数据拟合不理想,所以采用ARIMA-GRNN组合模型,来进行拟合和预测,利用广义回归神经网络对ARIMA模型的残差进行修正,选择最佳光滑因子,从而得到了更佳的神经网络模型,预测效果优于单纯ARIMA模型。本研究数据选择的时间跨度从2009—2015年,用ARIMA-GRNN组合模型可以较好地预测手足口病发病率,并考虑了周期性。本研究数据周期为7个周期,模型相对稳定,能够从定量角度对新疆维吾尔自治区手足口病预防及监测提供一定的科学参考。该组合模型一般对传染病短期预测较精确,当预测区间较长时,精度会下降[17],所以最好根据数据选择调整模型后做预测。如果考虑当地气候变化与病原类型、监测手段等因素,预测结果将会更具实际意义。
| [1] |
卫生部.手足口病预防控制指南(2008年版)[N].健康报, 2008-05-05(5). http://www.cnki.com.cn/Article/CJFDTotal-XCYY2009S1004.htm
|
| [2] |
吕晓菊. 手足口病防治进展[J]. 华西医学, 2008, 23(3): 632-633. |
| [3] |
郭璐, 张敏, 朱正平, 等. ARIMA模型在南京市梅毒预测中的应用[J]. 现代预防医学, 2015, 42(2): 205-207, 210. (In English: Guo L, Zhang M, Zhu ZP, et al. The application of ARIMA in the prognosis of syphilis in Nanjing City[J]. Mod Prev Med, 2015, 42(2): 205-207, 210.) |
| [4] |
王振龙, 胡永宏. 应用时间序列分析[M]. 北京: 科学出版社, 2007.
|
| [5] |
郑彦玲, 张利萍, 丁丽丽, 等. 新疆维吾尔自治区艾滋病发病率的组合预测模型研究[J]. 数学的实践与认识, 2016, 46(21): 120-126. (In English: Zheng YL, Zhang LP, Ding LL, et al. Study on the combined forecasting model of the incidence of AIDS in Xinjiang[J]. Math Pract Theory, 2016, 46(21): 120-126.) |
| [6] |
钟珞, 饶文碧, 邹承明. 人工神经网络及其融合应用技术[M]. 北京: 科学出版社, 2007.
|
| [7] |
张利萍, 唐丹丹, 郑彦玲, 等. SARIMA模型在新疆维吾尔自治区手足口病发病率预测中的应用[J]. 数学的实践与认识, 2017, 47(9): 115-122. (In English: Zhang LP, Tang DD, Zheng YL, et al. Model of seasonal autoregressive integrated moving average model and its application in prediction of the hand-foot-mouth disease incidence in Xinjiang[J]. Math Pract Theory, 2017, 47(9): 115-122.) |
| [8] |
安庆玉, 周毅恒, 姚伟. 某市手足口病发病数预测三种方法比较[J]. 中国卫生统计, 2011, 28(3): 314-315. DOI:10.3969/j.issn.1002-3674.2011.03.034 |
| [9] |
高雅, 王伶, 吴伟, 等. 辽宁省手足口病疫情季节性ARIMA模型预测效果评价[J]. 中国公共卫生, 2017, 32(10): 1482-1484. (In English: Gao Y, Wang L, Wu W, et al. Prediction of hand-foot-mouth disease epidemic with seasonal autoregressive integrated moving average model[J]. Chin J Public Health, 2017, 32(10): 1482-1484. DOI:10.11847/zgggws2017-33-10-16) |
| [10] |
李俭川, 秦国军, 温熙森, 等. 神经网络学习算法的过拟合问题及解决方法[J]. 振动、测试与诊断, 2002, 22(4): 260-264. (In English: Li JC, Qin GJ, Wen XS, et al. Over-fitting in neural network learning algorithms and its solving strategies[J]. J Vibrat, Meas Diagn, 2002, 22(4): 260-264. DOI:10.3969/j.issn.1004-6801.2002.04.003) |
| [11] |
吴伟, 郭军巧, 周宝森. GRNN组合预测模型对辽宁省及部分地区肾综合征出血热发病率的预测研究[J]. 中国媒介生物学及控制杂志, 2008, 19(1): 44-48. (In English: Wu W, Guo JQ, Zhou BS. With generalized regression neural network combination forecasting model forecast the incidence of hemorrhagic fever with renal syndrome Liaoning province and several regions within[J]. Chin J Vector Biol Control, 2008, 19(1): 44-48. DOI:10.3969/j.issn.1003-4692.2008.01.016) |
| [12] |
王永斌, 李向文, 柴峰, 等. 基于ARIMA-GRNN组合模型预测我国甲肝发病率[J]. 中华疾病控制杂志, 2016, 20(7): 734-737, 746. (In English: Wang YB, Li XW, Chai F, et al. Forecasting incidence of hepatitis A with ARIMA-GRNN hybrid model in China[J]. Chin J Dis Control Prev, 2016, 20(7): 734-737, 746.) |
| [13] |
娄鹏威, 吴秀峰, 张学良, 等. 基于ARIMA乘积季节模型的新疆维吾尔自治区布鲁氏菌病流行趋势分析[J]. 新疆医科大学学报, 2017, 40(1): 86-90. (In English: Lou PW, Wu XF, Zhang XL, et al. The epidemic analysis of brucellosis in Xinjiang base on the multiple seasonal ARIMA model[J]. J Xinjiang Med Univ, 2017, 40(1): 86-90. DOI:10.3969/j.issn.1009-5551.2017.01.022) |
| [14] |
张国良, 后永春, 舒文, 等. 三种模型在肺结核发病预测中的应用[J]. 中国卫生统计, 2013, 30(4): 480-483. (In English: Zhang GL, Hou YC, Shu W, et al. Comparison of three models on prediction of incidence of pulmonary tuberculosis[J]. Chin J Health Stat, 2013, 30(4): 480-483.) |
| [15] |
邓红, 张璇, 阿依古丽·伊尔哈力, 等. 新疆维吾尔自治区2008-2013年手足口病流行病学及病原学特征[J]. 中国公共卫生, 2016, 32(1): 38-41. (In English: Deng H, Zhang X, Ayiguli·Yierhali, et al. Epidemiological and etiological characteristics of hand, foot and mouth disease in Xinjiang, 2008-2013[J]. Chin J Public Health, 2016, 32(1): 38-41.) |
| [16] |
刘万里, 黄永迪, 马会来, 等. 2011-2015年新疆手足口病流行病学特征分析[J]. 新疆医科大学学报, 2018, 41(3): 357-361, 365. (In English: Liu WL, Huang YD, Ma HL, et al. Epidemiological characteristics of hand foot and mouth disease in Xinjiang over 2011-2015 years[J]. J Xinjiang Med Univ, 2018, 41(3): 357-361, 365. DOI:10.3969/j.issn.1009-5551.2018.03.024) |
| [17] |
祝国强, 张学良, 杭国明. 医药数理统计方法[M]. 3版. 北京: 高等教育出版社, 2014. (In English: Zhu GQ, Zhang XL, Hang GM. Medicine Mathematical Statistic Method[M]. 3rd ed. Beijing: Higher Education Press, 2014.)
|



