基于ARIMA乘积季节模型的苏州市介水传染病发病预测研究
王建书, 刘强, 覃江纯, 杭惠, 杨海兵     
苏州市疾病预防控制中心
摘要: 目的 探讨运用自回归求和移动平均(autoregressive integrated moving average,ARIMA)乘积季节模型对苏州市介水传染病发病率进行预测。方法 利用R软件对苏州市2008年1月—2015年12月的介水传染病发病率数据进行拟合,构建ARIMA乘积季节模型,对苏州市2016年1—6月介水传染病的发病率进行预测。结果 构建了ARIMA(2,1,2)×(0,1,1)12乘积季节模型,模型Ljung—Box检验差异无统计学意义(Q=18.478,P=0.779),模型适用于短期预测,2016年1—6月苏州市常见介水传染病实际发病率均在预测结果95%可信区间内,预测结果相对误差的平均值为-0.024。结论 ARIMA(2,1,2)×(0,1,1)12季节乘积模型可用于苏州市介水传染病发病率的短期预测。
关键词: ARIMA乘积季节模型     介水传染病     发病预测    
Prediction of Incidence for Water-borne Diseases on a Multiple Seasonal ARIMA Model in Suzhou
WANG Jianshu, LIU Qiang, QIN Jiangchun, HANG Hui, YANG Haibing     
Abstract: Objectives To explore the application of a multiple seasonal autoregressive integrated moving average (ARIMA) model in predicting the incidence of water-borne diseases in Suzhou. Methods A multiple seasonal ARIMA model based on the incidence of water-borne diseases in Suzhou from 2008 to 2015 was established by the R software, an optimal fitted model was then used to predict the incidence of water-borne diseases in Suzhou from January to June in 2016. Results A multiple seasonal ARIMA (2, l, 2)×(0, l, 1)12 model was established. There was no statistically significant difference in fitting effect(Q=18.478, P=0.779)tested by the Ljung-Box test, and the model was fitted for forecasting a short term incidence rate, all actual values of the incidence of water-borne diseases in Suzhou from January to June in 2016 were in the 95% confidence intervals of predicted values, the mean relative error was -0.024. Conclusion Multiple seasonal ARIMA (2, l, 2)×(0, 1, 1)12 model could be used to predict the short term incidence rate of water-borne diseases in Suzhou.
Key words: multiple seasonal ARIMA model     water-borne disease     prediction    

与饮水有关的致病因子种类很多,有公共卫生专家提出“水性疾病”的概念,将霍乱、伤寒、副伤寒、细菌性痢疾、阿米巴痢疾、甲肝、戊肝及肝炎(未分型)和其他感染性腹泻等介水传染病纳入“水性疾病”的范畴。当饮用水受到病原体的污染后,可引起多种介水传染病的流行[1-2],其对居民健康的影响不容忽视。自回归求和移动平均(autoregressive integrated moving average,ARIMA)乘积季节模型作为一种统计模型,通过挖掘时间序列的特征信息,可以对时间序列未来的变化趋势进行推断[3]。本文运用R软件通过分析苏州市介水传染病的月发病变化规律,探讨运用ARIMA乘积季节模型对苏州市介水传染病进行预测的可行性,为介水传染病预警防控提供一定的数据支持。

1 资料与方法 1.1 资料

2008—2016年苏州市霍乱、伤寒、副伤寒、细菌性痢疾、阿米巴痢疾、甲型肝炎、戊型肝炎及肝炎(未分型)和其他感染性腹泻等介水传染病发病数据来源于传染病报告管理系统。运用2008年—2015年上述苏州市介水传染病月发病率数据做模型的构建,运用2016年1—6月苏州市介水传染病发病率对模型预测效果进行检验。

1.2 ARIMA乘积季节模型的构建[4-6]

ARIMA乘积季节模型可以表示为ARIMA(p,d,q)×(P,D,Q)s。首先通过数据转换使时间序列满足建模的平稳性要求,然后通过自相关和偏自相关分析对模型进行初步定阶,结合参数估计和模型诊断选择最佳模型,最后借助模型进行预测。

1.3 统计学分析

在Excel软件中建立数据库,运用R i386软件中的“tseries”和“forecast”软件包进行数据处理和ARIMA乘积季节模型构建。

2 结果 2.1 介水传染病月发病率情况

苏州市2008—2015年介水传染病月发病率情况如表 1所示,可见前期发病率高峰主要集中在夏秋季,近年来发病率高峰则主要集中在秋冬季。

表 1 2008—2015年苏州市介水传染病月发病率(1/10万)
月份/月 2008年 2009年 2010年 2011年 2012年 2013年 2014年 2015年
1 1.050 1.030 2.125 1.356 1.826 4.282 1.699 3.934
2 1.282 0.989 1.419 1.813 1.642 1.583 0.934 1.565
3 1.381 1.373 1.546 2.154 1.696 2.309 1.618 1.515
4 1.472 1.536 1.737 2.457 1.573 1.675 1.221 1.493
5 1.671 1.708 1.871 2.542 1.535 1.300 1.478 1.644
6 2.266 2.321 1.641 2.813 1.527 1.216 1.552 1.623
7 2.969 2.680 2.189 2.960 1.757 2.072 1.721 1.529
8 3.970 2.648 2.823 3.379 1.888 2.118 1.794 1.623
9 3.102 2.296 2.522 2.914 1.496 2.126 1.699 1.572
10 2.663 2.836 2.902 3.015 3.039 3.036 2.522 1.687
11 2.059 2.713 3.005 3.100 3.922 5.384 4.029 2.455
12 1.571 2.435 1.784 2.650 2.486 3.824 6.655 5.464

运用“plot”函数绘制2008年1月—2015年12月苏州市介水传染病月发病率的时间序列图(图 1),可见苏州市介水传染病发病率为非平稳序列,呈一定的周期性和季节性趋势。

图 1 2008—2015年苏州市介水传染病月发病情况

2.2 模型识别和建立

根据序列的特点,对数据进行对数转换后,采用差分的方式,对数据进行了一次普通的差分和一次季节性的差分,差分后数据序列近似平稳,故非季节差分阶数d和季节差分阶数D均取1,季节性循环周期s定为12,其自相关函数(autocorrelation function,ACF)图和偏自相关函数(partial autocorrelation function,PACF)图如图 2图 3所示。模型初步确定为ARIMA(p,l,q)(P,1,Q)12乘积季节模型。

图 2 拆分后数据序列自相关分析图

图 3 拆分后数据序列偏自相关分析图

p,q,P,Q的参数的确定一般而言不超过2阶,可以采取从低阶到高级逐步尝试的方式,根据模型参数检验、拟合优度检验等来确定最优的模型[7]。R软件提供了auto.arima函数,可以依据赤池信息量准则(Akaike information criterion,AIC)或者贝叶斯信息准则(Bayesian Information Criterion,BIC)推荐模型,然后借助参数检验和模型诊断完成最佳模型的筛选。本文通过R软件的auto.arima函数得到推荐的最佳模型为ARIMA(2,1,2)×(0,1,1)12

2.3 参数估计和模型诊断

采用最大似然估计(maximum likelihood estimation,MLE)对上述模型进行参数估计,参数估计的结果均具有统计学意义(表 2)。

表 2 模型参数估计及检验
参数 估计值 标准误 t P
ar1 1.462 0.135 6.936 0.000
ar2 -0.600 0.116 -4.232 0.000
ma1 -1.853 0.108 -9.035 0.000
ma2 0.866 0.109 3.949 0.000
sma1 -0.480 0.124 -3.977 0.000

该模型的对数似然值为-8.14,模型的标准误为0.071,AIC值=28.27,BIC值=42.79。由模型残差的自相关分布图(图 4)可以看出,模型的残差为随机分布,自相关系数均在随机区间内,没有明显的自相关性,运用“Ljung—Box”对模型的残差值进行检验,得出Q=18.478,P=0.7792,可以认为模型残差为白噪声。综合以上结果,说明最终建立的模型ARIMA(2,1,2)×(0,1,1)12是合适的。

图 4 模型残差的自相关分析图

2.4 模型预测

利用forecast.arima命令,借助构建的ARIMA(2,1,2)×(0,1,1)12乘积季节模型对苏州市2016年1—6月的介水传染病发病率进行预测(表 3)。可以看出2016年1—6月介水传染病实际发病率均处于预测发病率的95%可信区间范围内,其预测值与实际值的绝对误差的平均值为-0.259,相对误差的平均值为-0.024,预测结果比较理想,提示ARIMA(2,1,2)×(0,1,1)12模型在苏州市介水传染病的发病预测中具有较好的短期预测能力。

表 3 2016年1—6月苏州市介水传染病发病率(1/10万)预测结果
月份
/月
预测发
病率/%
95%可信区间 实际发
病率/%
绝对
误差
相对
误差
下限 上限
1 3.496 2.110 5.792 4.646 -1.150 -0.248
2 1.593 0.883 2.874 2.600 -1.007 -0.387
3 1.815 0.988 3.336 1.954 -0.138 -0.071
4 1.552 0.843 2.855 1.328 0.223 0.168
5 1.605 0.872 2.954 1.385 0.219 0.158
6 1.562 0.847 2.882 1.265 0.297 0.235

3 讨论

介水传染病对居民健康负担的影响不容忽视。有研究表明,末梢水中微生物学指标细菌总数合格率与常见的介水传染病如细菌性痢疾等的发病率呈负相关,提示可通过借助监测饮水卫生状况对介水传染病的发病风险进行预测[8]。同时在疾病的发病预测中常用的方法还包括回归分析法、灰色模型GM、ARIMA模型等[9-11]。受季节因素的影响,介水传染病的发病呈现一定的季节周期性,本研究采用的ARIMA乘积季节模型对于含有季节因素的时间序列具有良好的适用性。

近年苏州市介水传染病月发病率高峰主要集中在秋冬季节,这可能与近年来苏州市其他感染性腹泻在介水传染病中所占比重较大,其在秋冬季发病率较高有关。本文运用R软件,基于苏州市2008年1月—2015年12月介水传染病的发病率数据,运用ARIMA乘积季节模型建立了模型ARIMA(2,1,2)×(0,1,1)12,模型预测结果显示模型对2016年1—6月份介水传染病发病率的短期预测效果较好,预测发病率与实际发病率数据趋势基本一致,月发病率峰值均出现在1月份,2016年1—6月份实际发病率数据均在预测发病率的95%可信区间内,表明运用该模型对苏州市介水传染病进行短期发病率预测能够达到较好的预测效果。

本文采用ARIMA乘积季节模型,通过分析介水传染病的历史发病规律,构建ARIMA(2,1,2)×(0,1,1)12乘积季节模型,可以为苏州市介水传染病预测模型的构建提供相关思路。为了提高模型的适用性,需在补充更新现有数据的基础上反复拟合,提高模型的预测应用能力。介水传染病的发病受到气候因素、个人卫生状况等其他随机因素的影响,同时也受到水源性因素和食源性因素的区分界定等因素干扰[12]。因此在介水传染病的预测防控中应加强水源性和食源性疾病的监测,通过不断完善饮用水水质监测网络和人群流行病学资料,结合介水传染病的预测模型构建,有效预防介水传染病的发生。

参考文献
[1] 张殿平, 翟慎永, 刘晓利, 等. 淄博市农村饮用水水质及介水疾病发病状况调查[J]. 环境与职业医学, 2015, 32(7): 652–654, 658. Zhang DP, Zhai SY, Liu XL, et al. Quality of drinking water and incidence of water-borne diseases in rural areas of Zibo city[J]. J Environ Occup Med, 2015, 32(7): 652–654, 658. (in Chinese).
[2] 陈磊, 徐建辉, 高丽, 等. 基于ARIMA模型的象山半岛水性疾病时间序列分析[J]. 浙江预防医学, 2015, 27(11): 1131–1133.
[3] 牟敬锋, 赵星, 樊静洁, 等. 基于ARIMA模型的深圳市空气质量指数时间序列预测研究[J]. 环境卫生学杂志, 2017, 7(2): 102–107, 117. Mou JF, Zhao X, Fan JJ, et al. Time series prediction of AQI in Shenzhen based on ARIMA model[J]. J Environ Hyg, 2017, 7(2): 102–107, 117. (in Chinese).
[4] 刘峰, 朱妮, 邱琳, 等. ARIMA乘积季节模型在陕西省手足口病预测中的应用[J]. 中华流行病学杂志, 2016, 37(8): 1117–1120. Liu F, Zhu N, Qiu L, et al. Application of R-based multiple seasonal ARIMA model, in predicting the incidence of hand, foot and mouth disease in Shaanxi province[J]. Chin J Epidemiol, 2016, 37(8): 1117–1120. (in Chinese).
[5] 彭志行, 鲍昌俊, 赵杨, 等. ARIMA乘积季节模型及其在传染病发病预测中的应用[J]. 数理统计与管理, 2008, 27(2): 362–368. Peng ZH, Bao CJ, Zhao Y, et al. ARIMA product season model and its application on forecasting in incidence of infectious disease[J]. Appl Stat Manage, 2008, 27(2): 362–368. (in Chinese).
[6] 沈冰, 杨晓明, 卑伟慧, 等. 时间序列分析在上海静安区流感样病例预测预警中的应用[J]. 环境与职业医学, 2016, 33(2): 156–159. Shen B, Yang XM, Bei WH, et al. Application of time series analysis in forecasting and early warning of influenza-like illness in Jing'an district, Shanghai[J]. J Environ Occup Med, 2016, 33(2): 156–159. (in Chinese).
[7] 孟凡东, 吴迪, 隋承光. 2004-2015年中国狂犬病发病数据ARIMA乘积季节模型的建立及预测[J]. 中国卫生统计, 2016, 33(3): 389–391, 395. Meng FD, Wu D, Sui CG. Human rabies incidence in China:trends and predictions from a time series analysis from 2004 through 2015[J]. Chin J Health Stat, 2016, 33(3): 389–391, 395. (in Chinese).
[8] 刘凤莲, 吴惠忠, 许秉忠, 等. 宁夏城市饮用水微生物学指标与介水传染病的相关性[J]. 环境与健康杂志, 2014, 31(9): 827–828.
[9] 林玫, 李永红, 梁大斌, 等. ARIMA与GM模型在广西细菌性传染病预测中的应用[J]. 应用预防医学, 2012, 18(4): 204–207. Lin M, Li YH, Liang DB, et al. Forecasting bacterial infectious diseases by ARIMA and GM model in Guangxi[J]. J Appl Prev Med, 2012, 18(4): 204–207. (in Chinese).
[10] 孙佰红, 安庆玉, 田疆, 等. 单一ARIMA模型和联合模型比较预测辽宁省感染性腹泻疫情[J]. 职业与健康, 2016, 32(1): 76–79. Sun BH, An QY, Tian J, et al. Comparative research of single ARIMA model and combination model in forecasting epidemic situation of infectious diarrhea in Liaoning Province[J]. Occup Health, 2016, 32(1): 76–79. (in Chinese).
[11] Anwar MY, Lewnard JA, Parikh S, et al. Time series analysis of malaria in Afghanistan:using ARIMA models to predict future trends in incidence[J]. Malar J, 2016, 15(1): 566. doi: 10.1186/s12936-016-1602-1
[12] 曲亚斌, 戴昌芳, 张建鹏, 等. 广东省水性疾病与末梢水菌落总数合格率的相关性研究[J]. 环境与健康杂志, 2011, 28(12): 1093–1096. Qu YB, Dai CF, Zhang JP, et al. Correlation between water-borne diseases and qualified rate of total number of bacterial colonies in terminal tap water, Guangdong province[J]. J Environ Health, 2011, 28(12): 1093–1096. (in Chinese).
DOI: 10.13421/j.cnki.hjwsxzz.2017.06.001
中国疾病预防控制中心主办。
0
王建书, 刘强, 覃江纯, 杭惠, 杨海兵
WANG Jianshu, LIU Qiang, QIN Jiangchun, HANG Hui, YANG Haibing
基于ARIMA乘积季节模型的苏州市介水传染病发病预测研究
Prediction of Incidence for Water-borne Diseases on a Multiple Seasonal ARIMA Model in Suzhou
环境卫生学杂志, 2017, 7(6): 417-420
Journal of Environmental Hygiene, 2017, 7(6): 417-420
DOI: 10.13421/j.cnki.hjwsxzz.2017.06.001

相关文章

工作空间