文章信息
- 张喜红, 李慧, 曹文君, 崔永梅
- ZHANG Xihong, LI Hui, CAO Wenjun, CUI Yongmei
- SARIMA模型在长治市肺结核预测中的应用
- Application of the SARIMA Model in the Prediction of Pulmonary Tuberculosis in Changzhi City
- 中国医科大学学报, 2018, 47(7): 585-588
- Journal of China Medical University, 2018, 47(7): 585-588
-
文章历史
- 收稿日期:2018-01-26
- 网络出版时间:2018-06-28 9:42
2. 北京师范大学统计学院数理统计系, 北京 100875;
3. 长治医学院公共卫生与预防医学系流行病与卫生统计学教研室, 山西 长治 046000;
4. 长治市疾病预防控制中心传染病防控科, 山西 长治 046011
2. Department of Mathematical Statistics, School of Statistics, Beijing Normal University, Beijing 100875, China;
3. Teaching and Research Section of Epidemiology and Health Statistics, Department of Public Health and Preventive Medicine, Changzhi Medical College, Changzhi 046000, China;
4. Department of Infectious Diseases Prevention and Control, Changzhi Center for Disease Control and Prevention, Changzhi 046011, China
结核病是严重危害身体健康的重大传染病,是世界卫生组织和我国重点控制的传染病之一。我国是结核病高负担国家,每年新发结核病患者约90万例,居全球第3位[1]。最近几年全国肺结核发病人数呈持续下降趋势,防治工作效果显著[1]。季节自回归求和滑动平均(seasonal autoregressive integrated moving average,SARIMA)模型现广泛应用于各种传染病(肺结核、手足口病、流行性腮腺炎、菌痢等[2-5])的预测中。SARIMA模型一般形式为SARIMA(p,d,q)×(P,D,Q)S,其中p是季节内的自回归阶数,d是季节内的差分运算阶数,q是季节内的滑动平均数;P是季节间自回归阶数,D是季节间差分的阶数,Q是季节间滑动平均阶数,s是季节周期的时间长度。长治市是山西省结核病高发区,为探讨肺结核发病规律,本研究对长治市2010年至2017年肺结核发病数进行分析,利用时间序列分析方法中的SARIMA模型探讨肺结核的发病规律,为检测、预防和治疗肺结核提供科学依据。
1 材料与方法 1.1 资料来源通过“长治市疾病控制中心传染病疫情统计系统”收集长治市2010年1月至2017年12月肺结核发病人数,利用Excel2007建立原始数据库,通过Eviews3.1进行统计分析。
1.2 方法 1.2.1SARIMA模型简介:SARIMA(p,d,q)×(P,D,Q)S也叫乘积SARIMA模型,如果一个时间序列既有季节性又有趋势,适合建立的模型为SARIMA模型。构建SARIMA模型基本步骤为数据预处理、模型识别和定阶、模型参数估计和模型诊断、模型预测效果评价、预测。SARIMA模型的数学表达式为:
ϕ(B)Φ(BS)(1-B)d(1-BS)DXt=θ(B)Θ(BS)εt
其中
ϕ(B)=1-ϕlB-…-ϕpBp
θ(B)=1-θlB-…-θqBq
Φ(BS)=1-ΦlBS-…-ΦpBPS
Θ(BS)=1-ΘlBS-…-ΘQBQS
t表示时间,Xt表示肺结核月发病人数,B表示滞后算子,εt是白噪声,ϕ(B)和Φ(B)满足平稳性条件,θ(B)和Θ(B)满足可逆性条件,即这4个多项式的根都在单位圆外。
1.2.2数据预处理:将2010年1月至2017年12月肺结核月发病数数据分为2部分:2010年1月至2017年6月肺结核月发病数数据作为样本,2017年7月至2017年12月肺结核月发病数数据作为预测样本。根据长治市2010年1月至2017年6月肺结核月发病数时序图判断序列变化特征,考察样本序列是否存在异方差,如果存在异方差做Box-Cox变换,消除异方差;根据样本序列自相关函数(autocorrelation function,ACF)、偏自相关函数(partial autocorrelation function,PACF)考察样本序列平稳性,经过季节差分和普通差分后转化为平稳序列。
1.2.3模型的识别和定阶:根据差分后平稳序列ACF、PACF函数的拖尾性或截尾性,对模型进行初步识别和定阶。
1.2.4模型参数估计和模型诊断:根据AIC(Akaike information criterion)和SC(Schwarz criterion)准则综合判定模型阶数,利用非线性最小二乘法估计模型参数,通过阶数调整和参数显著性检验,利用Ljung-BoxQ尾概率(P值)在检验水平α=0.05下,对模型残差序列进行白噪声的χ2检验,判断建立的SARIMA模型的适合性。
1.2.5模型预测效果评价:对模型的预测值进行回顾性考核,判定模型的预测性能。
1.2.6预测:利用模型预测2018年肺结核发病情况。
2 结果 2.1 时间序列特征分析(图 1)将2010年1月至2017年6月肺结核发病人数的样本数据记为xt,t=1,2,…,90,曲线图见图 1A。图形显示发病人数存在明显波动,1年有1个高峰,一般在3、4月份;存在异方差、有线性下降趋势、具有以年为周期的季节效应。为了消除异方差,对数据做自然对数变换[yt=ln(xt)],曲线图见图 1B。图形显示,数据变换后序列异方差基本消除,线性下降趋势明显,并有周期。
2.2 ACF分析时序图显示存在明显的长期下降趋势和季节周期性,通过样本ACF(图 2)判断:ACF较大且为正值,随着时滞增加呈现缓慢衰减现象,且在时滞12,24等处有峰态,说明该序列具有趋势性和季节性且周期为12(个月),故尝试使用SARIMA模型拟合。
2.3 模型识别和检验
为了消除趋势性,采用1阶季节内差分对数据yt进行处理,得到新序列(1-B)yt样本ACF函数拖尾和样本PACF函数截尾(图 3),显示经过1阶季节差分处理后的序列季节内、外的趋势成分均已消除,但季节成分仍存在,判断季节内外的差分阶数分别为d=1,D=0。根据新序列的ACF和PACF拟定模型的初始阶数范围,结合AIC和SC准则,最终确定没有常数项的SARIMA(2,1,0)×(1,0,1)12为最佳模型,其AIC = -1.198,SC=-1.086,拟合优度R2=0.616,调整的R2=0.603;得到SARIMA预测模型具体表达式为:
(1-B)(1+0.657B+0.279B2)(1-0.906B12)yt=(1-0.885B12)εt,yt=ln(xt)
其中εt~WN(0,0,1272),见图 4。对模型残差进行白噪声检验,季节内原假设是残差序列无关,备择假设是残差序列为相关序列,由检验结果得到P > 0.05,且残差的ACF和PACF均落在2倍标准差内,见图 5。说明模型拟合后的残差序列为白噪声序列。
2.4 模型预测效果评价
应用模型拟合长治市2010年1月到2017年6月肺结核发病人数,并对长治市2017年7月至12月肺结核发病人数预测,拟合的肺结核月发病人数和实际肺结核月发病数具有相同的变化趋势,说明模型对该区的肺结核月发病人数预测效果较好。2017年7月至12月实际月发数病人数与预测月发病人数一致,模型平均绝对误差为6.67,平均相对误差为5.96%,预测效果较好。见表 1。
Month | Actual incidence(n) | Predicted incidence(n) | Absolute error | Relative error(%) |
July | 107 | 101 | 6 | 5.60 |
August | 115 | 100 | 15 | 13.04 |
September | 90 | 92 | 2 | 2.22 |
October | 95 | 95 | 0 | 0.00 |
November | 116 | 90 | 16 | 13.79 |
December | 91 | 92 | 1 | 1.10 |
2.5 预测结果
结果显示,预测2018年总发病1 326例,1月至12月发病人数分别为117、114、127、118、118、108、111、108、100、104、102、100。3月发病人数最多,为发病高峰;1月、4月、6月、7月、9月、10月、12月均比2017年各月发病人数多。
3 讨论肺结核病死亡率高,做好肺结核防控工作非常重要,肺结核预测是肺结核防控工作中一个重要环节。文献资料[6-8]显示常用预测模型有:GM(1,1)预测模型、时间序列预测模型、PB人工神经网络模型、多元线性回归、灰色马尔可夫组合预测、ARIMA-GM组合预测等。本研究利用长治市2010年1月到2017年6月肺结核发病人数建立SARIMA预测模型,建立的模型为SARIMA模型,利用模型预测2017年7月至12月发病人数的平均相对误差为5.96%,预测效果较好,模型建立较合理。时间序列预测模型方法都有其自身的优点和不足,SARIMA模型是一种短期预测精度高的模型。
长治市是山西省肺结核病高发区,3月份为发病高峰时期,近几年年发病人数呈明显下降趋势,但2017年发病人数比2016年略有增加,预测结果显示2018年发病人数也比2017年稍多。
综上所述,本研究建立了时间序列模型SARIMA来总结长治市肺结核的发病规律,并有效预测肺结核发病人数。时间序列SARIMA预测模型适合短期预测,长期预测不仅需要调整数据和模型参数,也要考虑一些突发素、环境因素等,这样才能使预测结果更加精准。
[1] |
国务院办公厅关于印发"十三五"全国结核病防治规划的通知[EB/OL]. [2017-02-16]. http://www.dzwww.com/xinwen/guoneixinwen/201702/t20170216_15551354.htm.
|
[2] |
孟蕾, 王玉明. ARIMA模型在肺结核发病预测中的应用[J]. 中国卫生统计, 2010, 27(5): 507-509. DOI:10.3969/j.issn.1002-3674.2010.05.018 |
[3] |
杨仁东, 胡世雄, 邓志红, 等. 湖南省手足口病发病趋SARIMA模型预测[J]. 中国公共卫生, 2016, 32(1): 48-52. DOI:10.11847/zgggws2016-32-01-15 |
[4] |
李润滋, 章涛, 梁玉民, 等. SARIMA模型在流行性腮腺炎发病预测中的应用[J]. 山东大学学报(医学版), 2016, 54(9): 82-86. DOI:10.6040/j.issn.1671-7554.0.2015.1163 |
[5] |
胡建利, 梁祁, 吴莹, 等. 季节时间序列模型在菌痢发病预测中的应用[J]. 中国卫生统计, 2012, 29(1): 34-39. DOI:10.3969/j.issn.1002-3674.2012.01.010 |
[6] |
柳巍, 曾令城, 李焕芝, 等. 灰色残差GM(1, 1)模型在预测肺结核流行趋势中的应用[J]. 河南医学研究, 2015, 24(7): 1-3. DOI:10.3969/j.issn.1004-437X.2015.07.001 |
[7] |
金如锋, 黄成钢, 邱宏, 等. 4种模型对我国某地区肺结核发病率的预测[J]. 现代预防医学, 2008, 35(4): 4866-4869. DOI:10.3969/j.issn.1003-8507.2008.24.047 |
[8] |
易静, 胡代玉, 杨德香, 等. 三种预测模型在肺结核发病预测中的应用[J]. 中国全科医学杂志, 2012, 15(5A): 1495-1497. DOI:10.3969/j.issn.1007-9572.2012.13.022 |