李文, 马德龙, 赵嘉欣, 母群征, 李贵昌, 刘小波, 王君, 张钦凤, 刘起勇, 鲁亮
LI Wen, MA De-long, ZHAO Jia-xin, MU Qun-zheng, LI Gui-chang, LIU Xiao-bo, WANG Jun, ZHANG Qin-feng, LIU Qi-yong, LU Liang
Epidemiological characteristics and risk prediction of scrub typhus in Guangdong province, China
中国媒介生物学及控制杂志, 2021, 32(3): 334-338
Chin J Vector Biol & Control, 2021, 32(3): 334-338


收稿日期: 2020-12-15
李文1 , 马德龙2 , 赵嘉欣1 , 母群征1 , 李贵昌1 , 刘小波1 , 王君1 , 张钦凤2 , 刘起勇1 , 鲁亮1     
1 中国疾病预防控制中心传染病预防控制所媒介生物控制室, 传染病预防控制国家重点实验室, 北京 102206;
2 山东第一医科大学公共卫生学院, 山东 泰安 271016
摘要: 目的 分析2012-2018年广东省恙虫病流行特征及变化趋势,预测其发病趋势,为评价恙虫病防控措施提供科学依据。方法 收集2012-2018年广东省恙虫病病例信息,进行描述性流行病学分析,并应用时间序列基于季节性差分的自回归积分移动平均模型(ARIMA)建立预测模型,比较2019年的观察值和预测值评估模型,预测2020年发病情况。结果 2012-2018年广东省共报告恙虫病病例33 490例,发病呈逐年增加的趋势,主要集中在6-10月;50~60岁年龄组病例数最多,女性病例数多于男性,农民发病占比最高(65.49%);使用月度恙虫病病例数据拟合ARIMA模型为(1,1,1)(0,1,1)12,贝叶斯信息准则(BIC)为879.36,Ljung-Box统计量检验残差序列为白噪声序列,调整R2=0.377,模型拟合效果较好,2019年实际值基本在预测值的95%可信区间内,模型预测效果较好。结论 广东省恙虫病有逐年增加的趋势,主要发病人群为50~60岁、女性、农民,ARIMA模型能够较好地预测广东省恙虫病病例的变化情况,提示有关部门应在恙虫病高发季节加强重点人群的宣传教育和疫情防控。
关键词: 恙虫病    流行特征    自回归积分移动平均模型    
Epidemiological characteristics and risk prediction of scrub typhus in Guangdong province, China
LI Wen1 , MA De-long2 , ZHAO Jia-xin1 , MU Qun-zheng1 , LI Gui-chang1 , LIU Xiao-bo1 , WANG Jun1 , ZHANG Qin-feng2 , LIU Qi-yong1 , LU Liang1     
1 State Key Laboratory of Infectious Diseases Prevention and Control, Department of Vector Biology and Control, National Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China;
2 School of Public Health, Shandong First Medical University, Tai'an, Shandong 271016, China
Abstract: Objective To analyze the epidemiological characteristics and changing trend of scrub typhus cases in Guangdong province, China from 2012 to 2018, to predict the incidence trend, and to provide a scientific basis for evaluating the prevention and control measures of scrub typhus. Methods The data of scrub typhus cases in Guangdong province from 2012 to 2018 were collected. A descriptive epidemiological analysis was conducted. A seasonal autoregressive integrated moving average (ARIMA) time series model was used to establish a forecasting model, which was evaluated by comparing the observed and predicted values in 2019, and the incidence of scrub typhus in Guangdong province in 2020 was predicted using the model. Results A total of 33 490 scrub typhus cases were reported in Guangdong province from 2012 to 2018, with the incidence increasing year by year, and the cases mainly occurred in June to October. The incidence was highest in the 50-60 years group; there were more cases in females than in males, and farmers (65.49%) were the dominant occupation. The ARIMA (1, 1, 1)(0, 1, 1)12 model was fitted with the monthly case data; the Bayesian information criterion was 879.36; the residual sequence was white noise sequence according to the Ljung-Box test, and the adjusted R2 value was 0.377. The fitting effect of the model was good. The actual value in 2019 was basically consistent with the predicted value with 95% confidence interval; the model had a good predictive effect. Conclusion The scrub typhus incidence shows an increasing trend year by year in Guangdong province. The main susceptible populations were people aged 50-60 years, females, and farmers. The ARIMA model can be used to predict the changes in scrub typhus cases in Guangdong province well, suggesting that the relevant departments should strengthen the publicity and education of key population and the epidemic prevention and control in the season with high incidence of scrub typhus.
Key words: Scrub typhus    Epidemiological characteristics    Autoregressive integrated moving average model    

恙虫病(scrub typhus)是由恙虫病东方体引起的一种急性发热性媒介生物传染病[1]。以鼠类为主要宿主动物,经由恙螨幼虫叮咬传播,其临床表现主要为发热、焦痂、淋巴结肿大等,严重者可致死[2]。恙虫病是亚太地区严重的公共卫生问题,威胁该地区超过10亿人的健康,据世界卫生组织(WHO)估计每年有100万人患病[3-4]。中国是恙虫病负担较严重的国家之一,中国南方地区有约1.62亿人处于潜在感染风险区[5]。2006-2018年广东省报告恙虫病病例和发病县(区)最多,分别为39 968例和139个[6],是我国恙虫病的主要流行省份之一。建立有效的恙虫病预测预警系统,可为制定恙虫病防治策略及效果评价提供科学依据。本研究旨在分析广东省2012-2018年恙虫病的流行病学特征,并使用自回归积分移动平均(autoregressive integrated moving average,ARIMA)模型预测2020年广东省恙虫病的病例数,为制定恙虫病防控措施提供科学依据。

1 材料与方法 1.1 数据来源


1.2 统计学分析

采用Excel 2016软件建立数据库,对病例资料进行分类整理,剔除疑似病例和信息不全的病例,运用SPSS 22.0软件对数据进行统计分析,率的比较采用χ2检验,检验水准α=0.05。

1.3 ARIMA模型

基于ARIMA理论,使用R 4.0.2软件构建预测模型。ARIMA模型是一种经典的时间序列分析方法,其基本思想是对时间序列进行观察研究,从序列自相关的角度找出内在规律,利用其变化规律来预测将来的情况[7]。恙虫病月发病时间序列为季节性时间序列,故采用乘积季节模型,即ARIMA(p,d,q)×(P,D,Q)s。其中d为平稳化过程中差分的阶数,p、q为自回归和移动平均阶数。P、Q为季节性自回归和移动平均阶数,D为季节差分阶数,s为季节周期。

建模过程按照以下阶段进行[8]:(1)序列特征及平稳化:首先做白噪声检验(Box-Pierce)验证序列是否为随机序列,应用时间序列图、自相关系数函数图(ACF图)、偏自相关系数函数图(PACF图)分析序列特征(趋势性、季节性)及平稳性,使用ADF(Augmented Dickey-Fuller)统计检验验证序列平稳性。若序列平稳,进行平稳序列的时间序列分析;若序列不平稳,结合序列特征,采用合适的数据预处理方法,包括数据转换、普通差分、季节差分等,实现序列平稳化后进行分析。(2)模型的识别:根据ACF图、PACF图和R语言forecast包进行定阶,进行模型的初步识别和定阶。(3)参数估计及模型诊断:利用非线性最小二乘法估计模型参数。参数估计后,对模型的残差序列进行白噪声检验(Ljung-Box test),用以判断模型的适合性。依据赤池信息量准则(akaike information criterion,AIC)和贝叶斯信息准则(bayesian information criterions,BIC)确定模型阶数,如不恰当则返回第二阶段,重新选定模型。(4)预测应用及模型评价:利用构建的ARIMA模型,预测2019年及2020年1-12月广东省恙虫病的发病情况,利用组内相关系数(intraclass correlation coefficient,ICC)对2019年的预测值和实际值进行一致性评价。

2 结果 2.1 流行特征

2012-2018年广东省共报告恙虫病病例33 490例,对月病例数进行季节性分解分析,结果显示,广东省恙虫病病例数逐年增加,存在明显的季节性和周期性(图 12),病例数的季节分布呈现双峰分布,主要分布在每年的6-10月,在6、10月分别达到2个高峰,也就是每年的夏秋季(图 3)。2012-2018年广东省恙虫病50~60岁年龄组病例数最多,占病例总数的26.16%,各年龄组男、女性病例数(图 4)差异有统计学意义(χ2=1 255.861,P < 0.001),女性病例多于男性;病例大多数是农民,占发病总数的65.49%。见图 5

图 1 广东省2012-2018年恙虫病发病时间序列图 Figure 1 Time series of scrub typhus cases in Guangdong province, 2012-2018
图 2 广东省2012-2018年恙虫病病例数季节性分解图 Figure 2 Seasonal decomposition plot of scrub typhus cases in Guangdong province, 2012-2018
图 3 广东省2012-2018年恙虫病发病逐月分布 Figure 3 Monthly distribution of scrub typhus cases in Guangdong province, 2012-2018
图 4 广东省2012-2018年恙虫病病例年龄、性别分布 Figure 4 Age and sex distributions of scrub typhus cases in Guangdong province, 2012-2018
图 5 广东省2012-2018年恙虫病病例职业分布 Figure 5 Occupational distribution of scrub typhus cases in Guangdong province, 2012-2018
2.2 ARIMA模型构建 2.2.1 序列平稳化

经Box-Pierce检验,χ2=48.366,P < 0.001,说明该序列是非随机序列。对于不平稳序列,需要进行差分处理使其平稳化。经一次一般差分和一次季节差分消除了趋势性和季节性的影响,得到了一个近似平稳的随机序列(ADF检验,P < 0.01),自相关分析图和偏相关分析图显示序列已符合ARIMA模型的平稳性要求。

2.2.2 参数判断

ACF图中自相关函数1阶显著非0,自相关值突破了可信区间,ACF图、PACF图均拖尾,初步判断ARMA(1,1);季节自相关特征,1阶显著非0,而后迅速截断,自相关系数延迟12阶显著非0;偏自相关1阶显著非0并拖尾,延迟12阶落入2倍标准差以内,大致判断季节性ARMA(0,1)12,因此大致判断ARIMA模型为(1,1,1)(0,1,1)12图 6)。同时利用R语言auto.arima函数进行自动定阶,最优模型为ARIMA(0,1,2)(0,1,1)12。备选模型的检验结果和参数之间的相关性进行不断调试,根据AIC值和标准化BIC值最小的模型为最佳模型(表 1)。ARIMA(1,1,1)(0,1,1)12的AIC值为870.30,BIC值为879.36,在拟合的所有模型中最小,此时R2=0.902,调整R2=0.377。

图 6 经一次一般差分、一次季节性差分后自相关与偏相关结果 Figure 6 The autocorrelation function and partial autocorrelation function diagram after first-general difference and first-seasonal difference
表 1 ARIMA模型比较 Table 1 Comparison between ARIMA models

观察残差ACF图和PACF图(图 7),发现延迟阶数均未超出2倍标准差界限,可认为残差序列为白噪声序列;Ljung-Box统计量为0.000 452 16,P= 0.983。

图 7 残差自相关和偏自相关结果 Figure 7 Residual autocorrelation and partial autocorrelation diagram
2.2.3 模型拟合

将数据整体回代,由模型拟合图可见(图 8),模型拟合值与实际值基本重合。同时将2019年1-12月恙虫病病例预测值与实际值进行比较,预测结果与实际值比较的平均绝对百分比误差为20.85(表 2)。模型拟合值与实际值的ICC分析结果显示,ICC值为0.934,95%可信区间(CI)为0.629~0.983,F=47.494,P < 0.001。

注:浅灰色区域为80%预测区间,深灰色区域为95%预测区间。 图 8 ARIMA(1,1,1)(0,1,1)12模型拟合及预测结果 Figure 8 Fitted curve and predictive value of the ARIMA (1, 1, 1)(0, 1, 1)12 model
表 2 广东省2019年恙虫病发病(例)实际值与预测值的比较 Table 2 Comparison between actual and predicted scrub typhus cases in Guangdong province, 2019
2.2.4 模型预测

利用构建的ARIMA模型对2020年每月广东省恙虫病病例进行预测(表 3),可见预测2020年2月病例数最少,5月开始恙虫病病例增加,5-11月病例数较多,呈单峰分布。见图 8

表 3 广东省2020年恙虫病发病(例)预测结果 Table 3 Predictive value of scrub typhus cases in Guangdong province, 2020
3 讨论 3.1 广东省恙虫病流行特征


3.2 ARIMA模型效果评价


利益冲突   无

