介水传染病包括霍乱、甲型肝炎、戊型肝炎、副伤寒及其他感染性腹泻病等,其病原体主要有三类:细菌、病毒和原虫,目前,在全球所有国家均尚未得到完全控制。由于介水传染病发病具有一定的周期性,研究拟运用R软件采用时间序列模型(Auto-regressive Integrated Moving Average Model, ARIMA)对福建省介水传染病发病进行定量预测,为风险评估和制定防控措施提供定量数据基础。
1 资料与方法 1.1 资料来源2004年1月—2018年4月的介水传染病发病病例数来源于中国疾病预防控制信息系统之传染病报告信息管理系统,本研究介水传染病包括霍乱、甲肝、戊肝、肝炎(未分型)、痢疾(细菌性痢疾、阿米巴痢疾)、伤寒、副伤寒及其他感染性腹泻病。
1.2 方法 1.2.1 原理和方法ARIMA模型通常借助时间序列的随机特性来描述事物的发展变化规律,从而解释并预测时间序列的变化发展规律,基本模型结构为:ARIMA(p, d, q)(P, D, Q)S。本研究采用R 3.4.3软件进行建模及数据处理分析。建模过程:①序列平稳:将2004年1月—2018年4月介水传染病发病数定义为以月为单位的时间序列,然后进行对数和差分处理,使之成为平稳序列。②模型识别:通过平稳序列的自相关(autocorrelation function, ACF)和偏自相关(partial autocorrelation function, PACF)系数初步确定p, d, q和P, D, Q阶值。③参数估计:根据p, d, q和P, D, Q的阶值计算出自回归和移动平均系数[1]。④模型诊断:计算Box-Ljung统计量,如果差异无统计学意义,可认为残差为白噪声。采用赤池信息量准则(Akaike information criterion,AIC)自动选择最优模型,其值越小,模型的拟合程度越好。⑤预测:预测2018年5—12月介水传染病发病数,准确性度量包括:平均误差(mean error, ME),平均残差平方和平方根(root mean squared error, RMSE)、平均绝对标准化误差(mean absolute standarded error, MASE)、平均绝对误差(mean absolute error, MAE)、平均百分比误差(mean percentage error, MPE)、平均绝对百分比误差(mean absolute percentage error, MAPE)等,其值越小,预测准确度越高,可信度越高,其中MAPE常用于前瞻性预测效果评估;并比较2018年5—9月实际发病数和预测值的绝对误差和相对误差水平来评价模型的拟合效果。
1.2.2 统计学分析运用R 3.4.3中“tseries”、“forecast”、“stats”软件包对数据进行ARIMA建模和分析,α=0.05(双侧),置信区间设置为80%和95%,采用“stl”函数对原始数据对数变换后进行季节性分解。
1.2.3 质量控制介水传染病数据按照发病日期、现住址导出,排除疑似、重报和港澳台及外省病例。模型诊断采用自动选择和手工选择相结合,筛选出的模型与其它模型进行预测结果比较,最后确定最佳模型。
2 结果 2.1 传染病发病2004年1月—2018年4月福建省介水传染病报告发病数共409 042例,月平均报告2 378例,呈上升趋势和周期性波动。时间序列被分解为季节效应图、趋势图和随机波动项后显示,报告发病数在2008年、2015年和2016年有所下降,总体呈现较为明显的上升态势;季节效应比较明显,秋冬季节出现发病高峰,其中12月份与上月相比增长了29.31%,其次为1月、11月和10月,与上月相比,分别增长了18.88%、15.92%和8.74%;随机误差未出现较大波动(图 1)。
2.2 序列平稳化和模型识别
对原序列取自然对数后做1次1阶非季节差分,然后再做1次12阶季节差分,序列已接近平稳(图 2)。ACF和PACF图提示,滞后1阶和12阶显著地不为0,其它阶为平稳过程,说明差分后序列中含有显著的季节效应,可认为序列已平稳(图 2和图 3)。
2.3 参数估计和模型诊断
通过“auto.arima”函数在自动近似拟合后又进行了非近似拟合,得到了ARIMA(2, 1, 1)(2, 1, 1)12和ARIMA(2, 1, 1)(2, 1, 2)12两个模型,“Box-Ljung”统计量检验结果显示二者残差均为白噪声,由AIC统计量可知,后者拟合效果更好(表 1)。
参数 | ar(1) | ar(2) | ma(1) | sar(1) | sar(2) | sma(1) | sma(1) | AIC | P值(B-L检验) |
ARIMA(2, 1, 1)(2, 1, 1)12 | |||||||||
估计值 | 0.85 | -0.31 | -0.99 | -0.85 | -0.55 | 0.43 | - | -40.24 | 0.51 |
S.E | 0.08 | 0.08 | 0.04 | 0.18 | 0.08 | 0.21 | - | - | - |
ARIMA(2, 1, 1)(2, 1, 2)12 | |||||||||
估计值 | 0.85 | -0.32 | -0.98 | -0.78 | -0.35 | 0.32 | -0.29 | -40.59 | 0.41 |
S.E | 0.08 | 0.08 | 0.03 | 0.17 | 0.17 | 0.17 | 0.18 | - | - |
2.4 预测 2.4.1 回顾性评估
采用ARIMA(2, 1, 1)(2, 1, 2)12模型对福建省2004年1月—2018年4月介水传染病报告发病数进行回顾性预测,各项准确性指标分别为:ME(-0.02)、RMSE(0.19),MAE(0.13)、MPE(-0.32%)、MAPE(1.70)、MASE(0.69),结果显示,预测值和实际值吻合较好,准确度较高。
2.4.2 前瞻性评估对2018年5—12月发病数进行短期预测,其中5—9月份的实际发病数与预测值相比,绝对误差均值和相对误差分别为-203例和-8.62%(表 2和图 4)。
月份 | 预测值/例 | 实际值/例 | 绝对误差/例 | 相对误差/% | 80%CI/(下限/例) | 80%CI(上限/例) | 95%CI(下限/例) | 95%CI(上限/例) |
5月 | 1 907 | 2 047 | 140 | 7.35 | 1 486 | 2 447 | 1 302 | 2 793 |
6月 | 2 131 | 1 890 | -241 | -11.30 | 1 532 | 2 963 | 1 287 | 3 528 |
7月 | 2 160 | 2 010 | -150 | -6.93 | 1 526 | 3 056 | 1 270 | 3 672 |
8月 | 2 392 | 2 053 | -339 | -14.16 | 1 688 | 3 388 | 1 404 | 4 073 |
9月 | 2 350 | 1 925 | -425 | -18.08 | 1 659 | 3 329 | 1 380 | 4 002 |
10月 | 2 401 | - | - | - | 1 694 | 3 401 | 1 409 | 4 090 |
11月 | 2 130 | - | - | - | 1 503 | 3 018 | 1 250 | 3 629 |
12月 | 3 643 | - | - | - | 2 571 | 5 161 | 2 138 | 6 207 |
注:2018年10—12月是前瞻性预测; “-”为暂无实际值 |
3 讨论
细菌、病毒和原虫对水体的污染若处理不当可能会引起大规模的介水传染病流行,从而对人体健康产生严重危害。世界卫生组织在其制定的《饮用水水质准则》中指出,与饮用水有关的最常见、最普遍的健康危险是微生物污染,可能造成严重后果,这意味着控制饮用水微生物污染非常重要。
目前,全球致力于提高对传染病暴发流行的早期预测预警能力,基于模型的传染病疫情定量预测预警研究已成为公共卫生领域的重点[2]。ARIMA乘积季节模型能综合考虑季节、趋势和随机干扰等因素,对时间序列预测效果较好[1, 3],手足口病、戊型肝炎、登革热和流行性腮腺炎等采用此模型得到了理想的预测效果[4-7]。本研究根据介水传染病流行特征和对历史数据序列的初步建模识别,认为福建省介水传染病的预测适合采用ARIMA乘积季节模型预测。
研究发现,福建省2004年以来介水传染病发病总体呈上升趋势,尤其是在时间序列分解后,趋势图显示上升态势更为明显,季节效应显示秋冬季节为发病高峰期。不同介水传染病流行特征不尽相同,如细菌性痢疾近年来呈下降态势,发病高峰在夏季,而戊肝和其他感染性腹泻病等则呈上升态势,发病高峰分别在冬春季和秋冬季[5, 8]。在传播方面也有差异,如戊型肝炎病毒污染的地表水灌溉水果或蔬菜以及受感染的猪粪便肥料施肥农作物时存在传染戊肝的风险[9-10],戊型肝炎多见于雨季或洪水后,但发病高峰期在2—3月与其潜伏期较长也有关系;与其它病种相比,农村其他感染性腹泻病发病率高于城镇的现象更明显一些,可能与生活环境简陋、饮用水质不安全、卫生防病意思薄弱等有关[8]。有研究报道甲型肝炎、细菌性痢疾、伤寒、感染性腹泻等介水传染病的发病率和饮用水与环境卫生成负相关关系,随着饮用水和环境卫生的改善,发病率逐渐下降[11-13],但对福建省2004年以来介水传染病报告发病数在呈上升态势,因此,应结合水质监测数据、各型别病种、城乡、年龄段及性别方面进一步探讨分析。
研究显示,RMSE、MAE及MAPE等回顾性评估准确性度量值以及预测值的预测值绝对误差均值和相对误差值均较小,说明此研究拟合的ARIMA(2, 1, 1)(2, 1, 2)12模型预测准确度较高,对于原序列是个理想的模型,可为福建省介水传染病风险评估和制定防控措施提供一定实用价值的定量数据。由于ARIMA模型短期预测较为准确[2, 13],长期预测会导致预测值不准确,而且标准误较大[2],失去实用意义,另外气象、生态等环境因素以及人们生活习惯、相关部门政策及实施等因素也会对介水传染病的发生发展造成一定的影响,应适时修正模型,重新预测。
[1] |
刘峰, 朱妮, 邱琳, 等. ARIMA乘积季节模型在陕西省手足口病预测中的应用[J]. 中华流行病学杂志, 2016, 37(8): 1117-1120. (In English: Liu F, Zhu N, Qiu L, et al. Application of R-based multiple seasonal ARIMA model, in predicting the incidence of hand, foot and mouth disease in Shaanxi province[J]. Chin J Epidemiol, 2016, 37(8): 1117-1120. DOI:10.3760/cma.j.issn.0254-6450.2016.08.013) |
[2] |
祝寒松, 黄文龙, 谢忠杭. 基于SARIMA模型的细菌性痢疾短期定量预测研究[J]. 中国预防医学杂志, 2017, 18(10): 737-741. (In English: Zhu HS, Huang WL, Xie ZH. Short-term prediction for incidence of bacillary dysentery based on SARIMA model[J]. Chin Prev Med, 2017, 18(10): 737-741.) |
[3] |
于林凤, 吴静, 周锁兰, 等. ARIMA季节模型在我国丙肝发病预测中的应用[J]. 郑州大学学报(医学版), 2014, 49(3): 344-348. (In English: Yu LF, Wu J, Zhou SL, et al. Application of seasonal ARIMA model in forecasting incidence of hepati-tis C in China[J]. J Zhengzhou Univ (Med Sci), 2014, 49(3): 344-348.) |
[4] |
杨仁东, 胡世雄, 邓志红, 等. 湖南省手足口病发病趋势SARIMA模型预测[J]. 中国公共卫生, 2016, 32(1): 48-52. (In English: Yang RD, Hu SX, Deng ZH, et al. Predication of hand, foot and mouth disease incidence in Hunan province using SARIMA model[J]. Chin J Public Health, 2016, 32(1): 48-52.) |
[5] |
祝寒松, 黄文龙, 谢忠杭, 等. SARIMA模型在戊型肝炎发病趋势预警预测中的应用[J]. 中国人兽共患病学报, 2015, 31(2): 158-162. (In English: Zhu HS, Huang WL, Xie ZH, et al. SARIMA model for incidence trend and prediction of hepatitis E[J]. Chin J Zoonoses, 2015, 31(2): 158-162. DOI:10.3969/cjz.j.issn.1002-2694.2015.02.014) |
[6] |
Phung D, Huang CR, Rutherford S, et al. Identification of the prediction model for dengue incidence in Can Tho city, a Mekong Delta area in Vietnam[J]. Acta Trop, 2015, 141: 88-96. DOI:10.1016/j.actatropica.2014.10.005 |
[7] |
惠石生, 陈立章, 刘富强, 等. 乘积季节自回归积分滑动平均模型在流行性腮腺炎发病率预测中的应用[J]. 中华预防医学杂志, 2015, 49(12): 1042-1046. (In English: Hui SS, Chen LZ, Liu FQ, et al. Application of multiple seasonal autoregressive integrated moving average model in predicting the mumps incidence[J]. Chin J Prev Med, 2015, 49(12): 1042-1046. DOI:10.3760/cma.j.issn.0253-9624.2015.12.005) |
[8] |
祝寒松, 谢忠杭, 陈光敏, 等. 2005-2014年福建省其他感染性腹泻病流行病学分析[J]. 预防医学论坛, 2016, 22(1): 29-32. (In English: Zhu HS, Xie ZH, Chen GM, et al. Epidemiological analysis on other diarrhea diseases, Fujian Province, 2005-2014[J]. Prev Med Trib, 2016, 22(1): 29-32.) |
[9] |
Pavio N, Meng XJ, Doceul V. Zoonotic origin of hepatitis E[J]. Curr Opin Virol, 2015, 10: 34-41. DOI:10.1016/j.coviro.2014.12.006 |
[10] |
祝寒松, 黄文龙, 谢忠杭, 等. 福建省2005-2014年戊型病毒性肝炎流行病学特征分析[J]. 中国预防医学杂志, 2016, 17(7): 544-546. (In English: Zhu HS, Huang WL, Xie ZH, et al. Epidemiological characteristics of viral hepatitis E, Fujian Province, 2005-2014[J]. Chin Prev Med, 2016, 17(7): 544-546.) |
[11] |
赵艳玲.我国农村饮用水质量、环境卫生状况与介水传染病发病的关系研究[D].北京: 中国疾病预防控制中心, 2008. (In English: Zhao YL. Study on the relation between rural drinking water quality, sanitation and waterborne infectious disease in China[D]. Beijing: China Center for Disease Control and Prevention, 2008.) http://cdmd.cnki.com.cn/Article/CDMD-84501-2008201025.htm
|
[12] |
刘凤莲, 吴惠忠, 许秉忠, 等. 宁夏城市饮用水微生物学指标与介水传染病的相关性[J]. 环境与健康杂志, 2014, 31(9): 827-828. |
[13] |
王建书, 刘强, 覃江纯, 等. 基于ARIMA乘积季节模型的苏州市介水传染病发病预测研究[J]. 环境卫生学杂志, 2017, 7(6): 417-420. (In English: Wang JS, Liu Q, Qin JC, et al. Prediction of incidence for water-borne diseases on a multiple seasonal ARIMA model in Suzhou[J]. J Environ Hyg, 2017, 7(6): 417-420.) |