疾病监测  2017, Vol. 32 Issue (9): 731-734

扩展功能

文章信息

王媛媛, 田飞, 刘晶磊
WANG Yuan-yuan, TIAN Fei, LIU Jing-lei
时间序列分析在北京市东城区艾滋病病毒感染者和艾滋病患者发病率预测中的应用
Application of time series analysis on prediction of incidence of HIV/AIDS in Dongcheng District of Beijing
疾病监测, 2017, 32(9): 731-734
Disease Surveillance, 2017, 32(9): 731-734
10.3784/j.issn.1003-9961.2017.09.007

文章历史

收稿日期:2017-04-04
时间序列分析在北京市东城区艾滋病病毒感染者和艾滋病患者发病率预测中的应用
王媛媛, 田飞, 刘晶磊     
北京市东城区疾病预防控制中心, 北京 100050
摘要目的 探讨应用时间序列差分自回归移动平均模型(ARIMA)预测北京市东城区艾滋病病毒感染者/艾滋病患者(HIV/AIDS)发病率的可行性。方法 应用SAS 9.3软件对北京市东城区2005-2014年HIV/AIDS月发病率构建ARIMA模型,用得到的模型对2015年HIV/AIDS月发病率进行预测,评价模型的拟合和预测效果。结果 ARIMA(0,1,1)×(0,1,1)12模型拟合效果较好,但仍有优化的空间,月发病率的实际值均在预测值的95%可信区间内,预测值与实际值拟合趋势一致。结论 ARIMA模型可以对北京市东城区HIV/AIDS月发病率进行预测,为艾滋病疫情预测提供依据。
关键词时间序列    差分自回归移动平均模型    预测    获得性免疫缺陷综合征    
Application of time series analysis on prediction of incidence of HIV/AIDS in Dongcheng District of Beijing
WANG Yuan-yuan, TIAN Fei, LIU Jing-lei     
Department of HIV/STDs Prevention and Control, Dongcheng District Center for Disease Control and Prevention, Beijing 100050, China
Corresponding author: WANG Yuan-yuan, Email: wyy0432@163.com .
Abstract: Objective To evaluate the feasibility of the application of autoregressive integrated moving average model (ARIMA) in the prediction of monthly incidence of HIV/AIDS in Dongcheng District of Beijing. Methods Software SAS 9.3 was used to establish an ARIMA model based on the monthly incidence of HIV/AIDS from 2005 to 2014. Then the established model was used to predict the monthly incidence of HIV/AIDS in Dongcheng district in 2015. Results The established model of ARIMA (0,1,1)×(0,1,1)12 had a better fitted effect. The actual incidence rate was in the range of 95% CI of predicted value of the model. Conclusion The established ARIMA model could predict the monthly incidence of HIV/AIDS in Dongcheng district of Beijing, which might provide reference for prevention and control of AIDS.
Key words: Time series     ARIMA model     Prediction     Acquired immunodeficiency disease    

近些年,我国艾滋病(AIDS)主要传播途径以性传播为主,其中男性同性性传播比例上升明显。由于流动人口不断向大中型城市聚集,大中型城市的艾滋病疫情呈上升趋势[1]。在防治艾滋病的相关工作中,如果有相关预测性数据为“三间分布”并能提供信息,就可以对中长期的卫生规划、卫生资源配置、防控政策的制定提供依据[2]

时间序列是随时间不断变化、按时间前后顺序排列且相互关联的数据序列,时间序列分析就是分析这种数据序列的方法。时间序列分析统计原理是通过对过去、现在的数据序列进行分析,对未来的数据发展趋势进行统计推断,目的是对将来的工作有所预见性[3]

1 材料与方法

本研究选取2005-2015年北京市东城区辖区医疗机构、疾病预防控制中心(CDC)每月新报告的艾滋病病毒感染者/艾滋病患者(HIV/AIDS),包括现住址为本区(县)、外区(县)及外省的全部感染者。辖区医疗机构发现HIV/AIDS阳性的主要途径包括:术前检测、性病门诊、受血(制品)前检测、其他就诊者检测、孕产期检查等;东城区CDC发现HIV/AIDS阳性的主要途径包括:自愿咨询检测(VCT)、阳性者配偶或性伴检测、社区小组干预与检测(男男同性恋人群),东城区高危人群哨点监测(社区暗娼、社区吸毒、在押吸毒、在押暗娼、在押嫖客、流动人口等)。辖区常住总人口数来自2005-2015年北京统计年鉴。

1.1 模型介绍

20世纪70年代初,博克思(Box)和詹金斯(Jenkins)提出了著名的时间序列分析差分自回归移动平均模型(autoregressive integrated moving average model,ARIMA),又被称为Box-Jenkins模型[3]。ARIMA模型表达形式为ARIMA(p,d,q),这是非季节ARIMA模型,其中p指模型的自回归部分的阶数,d指序列差分的次数,q指模型平均移动部分的次数[4]。季节性ARIMA模型表达形式为ARIMA(p,d,q)×(P,D,Q)S,其中P为季节性自回归部分的阶数,D指序列差分的次数,Q指模型平均移动部分的次数,s代表季节周期,取值一般为12,24等。构建ARIMA模型的目的主要是分析时间序列的随机性、平稳性和季节性,拟合不同的ARIMA模型,评价并选择适当的模型进行预测[5]

1.2 步骤 1.2.1 模型的识别

应用时间序列分析的前提条件是所分析的时间序列必须具备平稳性,对原始数据进行转换可以使数据具备平稳性,一般运用Box-Cox变换方法对原始数据进行平稳化处理。再观察序列自相关图(auto-correction function,ACF)和偏自相关图(partial auto-correction function,PACF)拖尾与截尾的特征,可以确定模型自回归部分的阶数,再通过差分和季节性差分的次数初步确定模型中其他的参数,选择1个或几个模型进行模型的最优选择[5]

1.2.2 模型的参数估计与模型检验

确定了1个或几个模型后,要逐个模型进行拟合优度的检验,同时判断观测值和模型拟合值的残差是否为白噪声序列,如果残差序列为白噪声序列,说明该模型可用,如果不是白噪声序列,则说明还有信息在的残差序列中未被提取,模型不可用[6]。判断残差序列是否为白噪声的统计量为Ljung-Box Q统计量。如果模型不可用,要返回识别阶段重新确定模型[7]。如果同时选取了多个模型,利用统计量Akaike信息准则AIC和Schwarz贝叶斯准则SBC来评价模型间的优劣性,AIC和SBC值越小说明模型越好。

1.2.3 模型预测与评估

选择2005-2014年的数据用于建立模型,2015年的数据用于验证模型的预测效果。

1.3 统计学处理

应用SAS 9.3统计软件建立ARIMA时间序列模型并进行数据处理和分析。

2 结果 2.1 模型识别

对北京市东城区2005-2014年HIV/AIDS月发病率做序列图,见图 1。数据整体呈现上升趋势,对数据进行自然对数转换,使时间序列具备平稳性,进行自然对数转换后的时间序列自相关系数有缓慢下降的趋势,由于东城区流动人口较多,每年年初和年末报告新发HIV/AIDS人数较少,而哨点监测工作的开展集中在每年的4-7月,报告新发HIV/AIDS人数有所增多,因此数据整体也呈现出一定的季节性。

图 1 2005-2014年北京市东城区HIV/AIDS月发病率序列图 Figure 1 Time series of HIV/AIDS incidence from 2005 to 2014 in Dongcheng district of Beijing

将自然对数转换后的时间序列做一阶差分运算和一次季节差分来消除趋势和季节的影响,二次差分后的序列图见图 2中的lx(1,12),得到了一组相对更加平稳的数据,经过处理后的数据在(-2,2) 之间波动,不存在明显的规律。可以初步判断该时间序列为复合季节模型ARIMA(p,1,q)×(P,1,Q)12。二次差分后序列的自相关图见图 2中的ACF图,偏自相关图见图 2中的PACF图,可以看出样本自相关系数一步后是截尾的,偏自相关系数为拖尾,初步判断模型为ARIMA(0,1,1)。季节模型的参数P和Q判断较复杂,一般情况下不会超过2阶,分别取0,1逐个实验,根据模型的参数检验结果和拟合度等情况进行综合比较,有3个模型为备选模型:ARIMA(0,1,1)×(0,1,0)12,ARIMA(0,1,1)×(0,1,1)12,ARIMA(0,1,1)×(1,1,0)12

图 2 原序列经过对数转换和二次差分后的序列图、自相关图、偏自相关图 Figure 2 Sequence chart, ACF chart and PACF chart after log transformation and differenced two times
2.2 模型的参数估计与模型检验

对模型参数系数B进行检验,无效假设为B等于0,比较3种备选模型的拟合效果,结果显示3个模型的参数检验差异均有统计学意义(P < 0.05)。利用统计量AIC和SBC在3个模型间做最优选择,其中模型为ARIMA(0,1,1)×(0,1,1)12的AIC为138.93,SBC为146.95,AIC和SBC最小,因此为最优的模型,见表 1。对该模型的残差进行白噪声序列检验,结果显示示,在多阶延迟后,Ljung-Box统计量差异均无统计学意义(P > 0.05),见表 2,认为残差序列符合白噪声序列,说明本模型可用。模型的数学表达式:(1-B) (1-B12) Zt=(1-0.83B)(1-0.64B12)at,其中Z为月发病率的自然对数,B为移动平均因子,a为随机干扰。

表 1 备选ARIMA模型的参数估计和拟合优度的结果 Table 1 Results of parameter estimation and goodness of fit for alternative ARIMA models
参数a ARIMA(0,1,1)×(0,1,0)12 ARIMA(0,1,1)×(0,1,1)12 ARIMA(0,1,1)×(1,1,0)12
系数 t P 系数 t P 系数 t P
AR(1) - - - - - - - - -
MA(1) 0.82 14.53 <0.01 0.83 15.34 <0.01 0.80 13.63 <0.01
AR(12) - - - - - - -0.39 -4.22 <0.01
MA(12) - - - 0.64 8.23 <0.01 - - -
常数 -0.00 -0.07 0.94 -0.00 -0.41 0.68 -0.00 -0.21 0.83
AIC 164.48 138.93 149.55
SBC 169.82 146.95 157.57
注:a AR(1) 为自回归参数,MA(1) 为平均移动参数,AR(12) 为季节自回归参数,MA(12) 为季节平均移动参数
表 2 ARIMA(0,1,1)×(0,1,1)12模型的残差检验结果 Table 2 Residual test results of ARIMA (0,1,1) × (0,1,1) 12 model
延迟阶数 χ2 P
6 2.62 0.62
12 8.21 0.61
18 11.64 0.77
24 14.53 0.88
2.3 模型的预测

用ARIMA(0,1,1)×(0,1,1)12模型预测北京市东城区2015年1-12月HIV/AIDS月发病率,见图 3。实际月发病率均在预测值95%可信区间内,用2015年1-12月HIV/AIDS月实际发病率评价ARIMA(0,1,1)×(0,1,1)12模型预测准确度,预测值与实际值的平均绝对比例误差(MAPE)为20.18%,根据时间序列模型的预测评价理论[8],MAPE < 20%表示预测模型良好,提示模型依然有可优化的空间。

图 3 2015年1-12月北京市东城区HIV/AIDS实际发病率、预测发病率及预测值95%可信区间 Figure 3 Actual and prediction rate of HIV/AIDS and 95% CI of predicted value in Dongcheng district, January-December 2015
3 讨论

时间序列分析是利用数据序列的时间效应和记忆效应,通过数学统计模型将其表达出来,预测未来发展趋势。时间序列分析在我国公共卫生领域的应用十分广泛,在大气污染研究、水质状况预测、流感预警预测、传染病疫情传播、肿瘤发病趋势等方面,时间序列分析都有一定的应用价值[9]

东城区地处首都功能核心区,是北京体现作为政治、文化和国际交流中心功能的区域,具有发达的经济基础、成熟的商务环境和雄厚的文化底蕴。东城区也是流动人口的聚集地,流动人口所占比例一直居高不下。建立时间序列模型来预测HIV/AIDS的流行趋势,是在不考虑HIV/AIDS的影响因素的前提下,对未来的流行趋势进行预测。但2005年1-12月东城区HIV/AIDS月发病率是由各种复杂因素共同作用的结果,诸如艾滋病基本知识的宣传力度,高危人群的危险性行为干预的效果、哨点监测任务量的变化、最新的HIV检测方法的运用、抗病毒治疗的覆盖率、流动人口的持续增加等;所以时间序列模型不适合做长期的预测,较适合进行短期的预测。通过ARIMA(0,1,1)×(0,1,1)12模型对2015年东城区HIV/AIDS流行趋势进行预测,MAPE值为20.18%,说明模型依然有可优化的空间。在今后的研究中,应该同时开展HIV/AIDS相关影响因素的数据收集,将HIV/AIDS影响因素纳入到时间序列模型中,进一步提高预测的敏感性。

作者贡献:

王媛媛  ORCID:0000-0002-8332-2931

王媛媛:数据统计分析,文章撰写

田飞:数据下载整理,既往研究文献的整理和分析

刘晶磊:对文章结论和讨论部分给予了充分的意见

参考文献
[1]
Zhang YH, Bao YG, Li CM, et al. Analysis of HIV/AIDS epidemic situations in 15 large cities in China[J]. Practical Preventive Medicine, 2011, 18(5): 785-788. (in Chinese)
张艳辉, 鲍宇刚, 厉成梅, 等. 中国15个大城市艾滋病疫情状况分析[J]. 实用预防医学, 2011, 18(5): 785-788.
[2]
Luo J, Yang S, Zhang Q, et al. ARIMA model of time series for forecasting epidemic situation of AIDS[J]. Chongqing Medicine, 2012, 41(13): 1255-1259. (in Chinese)
罗静, 杨书, 张强, 等. 时间序列ARIMA模型在艾滋病疫情预测中的应用[J]. 重庆医学, 2012, 41(13): 1255-1259. DOI:10.3969/j.issn.1671-8348.2012.13.003
[3]
Peng ZX, Tao H, Jia CM, et al. The applied research of the time series analysis in the forecasting and early warning of infectious diseases[J]. Chinese Journal of Health Statistics, 2010, 27(5): 459-463. (in Chinese)
彭志行, 陶红, 贾成梅, 等. 时间序列分析在麻疹疫情预测预警中的应用研究[J]. 中国卫生统计, 2010, 27(5): 459-463.
[4]
Chen L, Xu JH, Gao L. Time series analysis of waterborne diseases in Xiangshan peninsula based on ARIMA model[J]. Zhejiang Journal of Preventive Medicine, 2015, 27(11): 1131-1133. (in Chinese)
陈磊, 徐建辉, 高丽. 基于ARIMA模型的象山半岛水性疾病时间序列分析[J]. 浙江预防医学, 2015, 27(11): 1131-1133.
[5]
Chen FM, Liu RC, Chen TM, et al. Study on the time series analysis and prediction model of incidence trend of influenza-like illness in Changsha[J]. Practical Preventive Medicine, 2013, 20(9): 1052-1055. (in Chinese)
陈发明, 刘如春, 陈田木, 等. 长沙市流感样病例发病趋势的时间序列分析和预测模型研究[J]. 实用预防医学, 2013, 20(9): 1052-1055.
[6]
Wu JB, Ye LX, You EK. Application of time series model in forecasting the incidence of infectious diseases[J]. Chinese Journal of Health Statistics, 2006, 23(3): 276. (in Chinese)
吴家兵, 叶临湘, 尤尔科. 时间序列模型在传染病发病率预测中的应用[J]. 中国卫生统计, 2006, 23(3): 276.
[7]
Wen L, Xu DZ, Lin MH, et al. Prediction of malaria incidence in malaria epidemic area with time series models[J]. Journal of the Fourth Military Medical University, 2004, 25(6): 507-510. (in Chinese)
温亮, 徐德忠, 林明和, 等. 应用时间序列模型预测疟区疟疾发病率[J]. 第四军医大学学报, 2004, 25(6): 507-510.
[8]
Wang Y. Applied time series analysis[M]. 4th ed. Beijing: People's Publishing House of China, 2015: 67-80. (in Chinese)
王燕. 应用时间序列分析[M]. 4版. 北京: 中国人民大学出版社, 2015: 67-80.
[9]
Gao WW, Guo CY, Zhou YJ. Application of time-series analysis in China's public health fields[J]. Chinese Journal of Social Medicine, 2011, 28(2): 78-80. (in Chinese)
高围溦, 郭常义, 周义军. 时间序列分析在我国公共卫生领域的应用[J]. 中国社会医学杂志, 2011, 28(2): 78-80.