2. 新疆维吾尔自治区疾病预防控制中心结核病与麻风病防治中心,新疆维吾尔自治区 乌鲁木齐市 830002
2. Tuberculosis and Leprosy Control Center, Xinjiang Uygur Autonomous Region Center for Disease Control and Prevention, Urumqi 830002, China
结核病是由结核分枝杆菌引起的一种传染性疾病,具有高度传染性和较高致死率,是单一传染性病原体导致人类死亡的主要原因, 因此被称为“白色瘟疫”[1]。根据世界卫生组织(World Health Organization, WHO)发布的报告,2021年中国大陆结核病发病人数约为78万,仅次于印度和印度尼西亚,位于世界第三[2],由此可见中国大陆是结核病的高发区域,因此结核病的防治任务迫在眉睫。结核病作为一种常见的流行病,具有明显的时空特征[3-7]。传统的回归模型不能描述数据的空间特征,而空间计量模型能够捕捉数据的空间相关性[8-9]。结核病的发病和传播受多种因素的影响,主要有社会经济因素[6.10]、气象因素[4.11]、空气污染[12]等方面。现有研究采用不同方法,通过不同角度对结核病发病率的影响因素进行研究,但大多数文献所研究的影响因素比较单一。现有研究只对流行病发病的影响因素进行时间或者空间上的分析,未同时对两者进行重要因素的筛选。因此,本文为捕捉结核病发病率的空间特征,采用空间滞后模型进行分析,在已有研究的基础上从人口、社会经济、气象、空气污染四个方面收集数据,对2017—2022年中国大陆31个省市结核病发病率进行空间自相关分析,并在考虑结核病具有时空特征的背景下,采用空间滞后模型的变量选择方法[13]对2021中国大陆31省市结核病发病率的影响因素进行建模分析。此方法可同时进行参数的估计与重要因素的筛选,为制定相应政策及如何防范结核病给出科学建议。
1 资料与方法 1.1 数据来源2017—2022年中国大陆31个省市(不含港澳台)年度结核病报告发病率(/10万)、每千人执业(助理)医生人数(名)、每千人医疗机构床位数(张)来自《中国卫生健康统计年鉴》。结核病报告发病人数(例)、全国年度总人口数(万人)、人均国内生产总值(GDP)(元)、城镇失业率(%)、人口密度(人/km2)、全年日照时长(h)、全年降水量(mm)、年平均气温(℃)、年相对平均湿度(%)、年平均二氧化氮(NO2)浓度(μg/m3)、年平均二氧化硫(SO2)浓度(μg/m3)、年平均PM10浓度(μg/m3)来自《中国统计年鉴》。首先对2017—2022年结核病发病率进行全局空间和局部空间的自相关分析,然后针对2021年结核病报告发病率及其影响因素之间的关系作空间回归建模分析。
1.2 研究方法 1.2.1 空间自相关分析使用全局莫兰值(Global Moran’s Ⅰ)进行全局空间自相关分析,以衡量结核病发病率整体上是否有空间关联,本文通过计算全局Moran’s Ⅰ来确定结核病发病率的空间相关性[14],Moran’s Ⅰ的取值范围在(-1, 1)之间。对发病率之间是否存在相关性进行检验,即在空间上是否是随机分布进行假设检验,其检验统计量称为z值,当|z|>1.96,P<0.05时,拒绝原假设,反之接受原假设。使用局部莫兰值(Local Moran’s Ⅰ)进行局部空间自相关分析,以衡量各个省市结核病发病率之间的相关程度。本文通过LISA聚集图来反映结核病发病率的空间聚集特征。
1.2.2 空间回归建模分析采用基于工具变量的空间滞后模型的变量选择方法[13]探究影响因素对结核病发病率的影响。此模型不仅能研究结核病发病率与各影响因素之间的空间依赖性,也能同时进行影响因素系数的估计和重要因素的选择,缩短了研究的时间成本。建模步骤如下:(1)首先建立一般的空间自回归模型作为参数的初始估计值,空间自回归模型的一般形式为:
$ Y_n=\rho W_n Y_n+X_n \beta_n+\varepsilon_n $ |
其中Yn是因变量的n维观测向量;ρ是空间参数;Wn是具有零对角元素的已知常数的n×n空间权重矩阵;βn是一个Pn维未知回归系数向量; Xn是n×Pn观测矩阵; εn=(ε1,ε2…εn)T是具有零均值和有限方差σ的独立同分布的扰动n维向量。本文中n=31代表 31个省市,将结核病发病率作为因变量(Y),人均GDP、城镇失业率、每千人执业(助理)医生人数、每千人医疗机构床位数、人口密度、全年日照时长、全年降水量、年平均气温、年平均相对湿度、年平均NO2浓度、年平均SO2浓度、年平均PM10浓度各影响因素作为解释变量X1,…,X12,各变量系数为β1,…,β12。(2)其次,在上式的基础上构建基于工具变量的空间滞后模型的惩罚回归,其中惩罚函数采用Fan等[15]提出的SCAD惩罚函数,则有以下目标函数:
$ \begin{gathered} Q(n)=\frac{1}{2}\left\|Y_n-\rho H_n\left(H_n^T H_n\right)^{-1} H_n^T D_n-X_n \beta_n\right\|^2 \\ +n \sum\limits_{k=1}^n p_{\lambda j}\left(\left|\beta_{n j}\right|\right)=\frac{1}{2}\left\|Y_n-Z \theta\right\|^2+n \sum\limits_{j=0}^{12} p_{\lambda j}\left(\left|\beta_{n j}\right|\right) \end{gathered} $ |
其中,Dn=WnYn,表示借助工具变量Hn矩阵,将Dn投影到Hn所张成的空间上。因此有
全国结核病发病率折线图、条形图由Excel 2016软件绘制;空间自相关分析、全国结核病发病率分布图及LISA聚集图由ArcMap 10.8完成;空间滞后模型的变量选择方法的算法通过R 4.2.2完成,并需spdep、rgdal、MASS等相关R包。
2 结果 2.1 结核病发病率时空分布特征 2.1.1 结核病发病率时间分布特征2017—2022年中国大陆31省市总人口数分别为140 011万人、140 541万人、141 008万人、141 212万人、141 175万人,逐渐增加;结核病报告发病人数逐年递减,结核病报告发病率也呈逐年递减趋势。见图 1。中国大陆各省市结核病报告发病率,以新疆最高,其次为西藏、青海、贵州,其余省市结核病的发病率呈现逐年下降的趋势,其中2019—2020年均有明显下降,且不同地区结核病报告发病率的年度变化趋势大致相同,见图 2。
对2017—2021年全国大陆31个省市结核病报告发病率进行可视化,发现历年结核病报告发病率呈现出由西到东逐渐递减的趋势,结核病报告高发区域主要集中在新疆、西藏、青海、贵州等地。其中新疆结核病发病率2017—2019年持续保持在最高水平;西藏结核病发病率2017—2018年水平较高,并且后续三年发病率仍处于较高的水平;青海、贵州结核病发病率在2017—2018年处于较高水平,但后续的三年发病率有所下降,其中2019年下降的幅度最大;北京、天津、河北、山东、江苏等地发病率最低。总体上,中国大陆结核病发病率空间分布差异明显,呈现出西高东低,中间平稳的空间模式。见图 3。
对2017—2021年中国大陆31个省市结核病发病率进行空间自相关性分析,结果显示各年份全局Moran’s Ⅰ分别为0.499、0.384、0.512、0.518、0.504(均P<0.05),说明各年份结核病报告发病率都有正空间自相关性,其中2017—2018年空间自相关性小幅下降,但2018年之后,空间自相关性逐渐增强。见表 1。
通过LISA聚集图分析各地区结核病报告发病率的空间聚集程度,结果显示主要包含了高-高、低-低、高-低三种聚集模式。高-高聚集区域主要集中在西部地区,新疆维吾尔自治区、西藏自治区、青海省一直是病情高发的热点区域,始终保持在较高水平,云南省和四川省自2018年之后也成为了结核病高发的热点地区;低-低聚集模式2017—2018年主要在华北地区的北京市、天津市、河北省及华东地区的江苏省,自2018年以后内蒙古自治区和山东省也成为了低-低聚集模式的区域,由此可见华北、华东地区是结核病病情的冷点地区;高-低聚集只有黑龙江省一个地区。见图 4。
从空间滞后模型惩罚估计的结果可知,空间系数为0.666。所选取的12个影响结核病发病率的影响因素中,本研究所采用的模型将其中6个影响因素的系数收缩为0,分别是每千人执业(助理)医生人数(名)、每千人医疗机构床位数(张)、人口密度(人/km2)、全年降水量(mm)、年平均气温(℃)、年平均SO2浓度(μg/m3);其余影响因素系数:人均GDP为-0.259,城镇失业率为-0.198,年日照时长为-0.332,年平均相对湿度为-0.433,年平均NO2浓度为-0.263,年平均PM10浓度为-0.336,均与结核病发病率呈负相关。
3 讨论结核分枝杆菌主要通过空气传播,中国是结核病病情高发地区和高负担地区[2]。只有深入了解中国大陆结核病发病的时空分布规律及影响因素与发病率之间的关系,才能在有关部门制定相应的政策时给出科学的建议及意见。本文通过空间自相关性分析及空间回归模型的建立,研究2017—2022年中国大陆31个省市结核病发病率的时空分布特征的同时筛选出了结核病发病的重要影响因素,并获得如下结论。
3.1 结核病发病率具有时间特征通过分析2017—2021年中国大陆31个省市逐年结核病报告发病率的折线图及各省市历年结核病报告发病率条形图发现,2017、2018年是中国大陆结核病的高发年份,自2018年后结核病报告发病率随着年份的增加逐渐降低,可能的原因是国家加大了对结核病的防控措施,使得结核病病情得到有效的控制。其中2020年新型冠状病毒感染的全国大流行[16],导致中国结核病报告发病率有明显下降。各省市结核病发病率的发展趋势与全国结核病发病率的趋势一致。总体上,结核病发病率会随着时间的推移而改变,即结核病发病率具有时间特征。
3.2 结核病发病率具有空间特征运用空间自相关分析方法对2017—2021年中国大陆结核病发病率及各省市结核病发病率之间进行全局和局部空间相关性分析,探究发病率是否存在空间相关性。通过计算结核病发病率全局Moran’s Ⅰ,2017—2021年连续五年全局Moran’s Ⅰ值均为正,说明各年份全国结核病发病率具有正空间相关性。通过观察中国大陆31省市结核病发病率分布图及LISA聚集图得知,结核病高发的热点地区主要集中在西北地区(新疆、西藏、青海等),低发的冷点地区主要集中在华北、华中地区(北京、天津、河北、江苏等)。因此结核病发病率呈现出西边高,东边低,中间平稳的空间特征,与第五次全国结核病流行病学调查结果一致[17]。说明结核病发病率会随着空间位置的改变而变化,即结核病发病率具有空间特征。因此,相关部门需对西部结核病高发地区宣传结核病相关知识,并加强防控措施。
3.3 结核病发病率建模结果分析考虑结核病发病具有空间依赖的情况,采用空间滞后模型的变量选择方法,探究4个方面、12个指标对结核病发病率的影响。模型将每千人执业(助理)医生人数、每千人医疗机构床位数、人口密度、全年降水量、年平均气温、年平均SO2浓度6个影响变量收缩为0,说明这些变量对结核病发病的影响不明显。其中影响因素人均GDP的系数为-0.259,说明经济的增长能抑制结核病的传播,与研究[18-19]结果一致;城镇失业率的系数为-0.198,表明其对结核病的发病有负向的影响,此结果与相关研究[10]存在差异,原始数据中发达地区的失业率高于不发达地区的失业率,刚好与结核病发病率相反,其原因可能是各地就业政策不同;全年日照时长的系数为-0.332,与结核病发病率呈负相关,日照可以促进维生素D的形成进而提高人民的身体素质,从而减少结核病感染的风险;年平均相对湿度的系数为-0.433,与结核病发病率呈负相关,与相关研究[5]结果相似,由于结核分枝杆菌在空气中传播,湿度的增加抑制了空气中分子的布朗运动,从而导致感染结核分枝杆菌的概率变小;年平均SO2、PM10浓度系数分别为-0.263、-0.336,与结核病发病率呈负相关,在模型构建的过程中,与各个省市不同影响因素共同分析时,空气质量好的地区与空气质量差的地区作对比,此变量承担了部分解释结果的功能,最终导致拟合系数为负[20]。
总体上,采用空间滞后模型的变量选择方法对结核病发病率及其相关影响因素建模分析能够得到更加完善、可靠的结果。原因在于:第一,从模型建立角度看,本文采用了空间滞后模型,此模型能够将结核病的空间自相关性及相关影响因素同时进行估计,而现有研究只采用Moran’s Ⅰ进行分析或者只是对影响因素进行估计,将两者分开考虑,可能会遗漏某些变量对发病率的影响。第二,在此基础上,本文还对影响结核病的重要因素进行筛选,将不重要的变量收缩为0,增加了论文的可读性,现有研究只对结核病发病率进行时空分析及系数估计,并未做到筛选变量这一点,因此,本文在惩罚回归的框架下,估计结核病发病率的空间自相关性及影响因素,同时进行了重要变量的筛选。第三,在模型估计的过程中,由于空间滞后项具有内生性,这将导致估计的结果出现偏差,因此采用了工具变量方法来解决此问题,提高了模型估计的精度。第四,从实际分析结果来看,本文建模分析的结果与以往研究相互印证,例如人均GDP、年平均相对湿度、年平均SO2浓度及年平均PM10浓度的系数均为负,与相关文献[5, 18-19]的研究结果类似。但本文也存在与以往研究不一致的方面,如城镇失业率的系数在本文估计为负,而吴田勇等[10]在对重庆市结核病影响因素进行分析时,城镇失业率的系数估计为正。因此,不论是从模型建立还是从实际结果分析,本研究的结果都更加全面、可靠,具有一定的参考价值。
本文存在一定的局限性。(1)本文虽从人口、社会经济、气象、空气污染四个方面选取了影响因素,但还是可能存在影响因素选取不全面的问题;(2)由于篇幅有限,只重点对2021年结核病及其影响因素进行建模分析,还需对其他年份展开进一步的研究讨论;(3)本文研究了2017—2021年共5年结核病发病率的时空分布特征,由于2020年新型冠状病毒感染疫情的暴发,较大程度的影响了结核病的发病,但本文未考虑新型冠状病毒感染对结核病的影响,因此对此方面还需要进一步的分析研究。
综上所述,结核病发病率呈现一定的时空特征,且受社会、经济、气象、空气污染等多个方面的因素影响。因此,因地制宜,针对不同地区制定不同的防疫政策才能有效的控制结核病的传播。如提高地区居民经济水平,提倡人们适量的晒太阳,空气质量较差的地区采取改善空气质量的措施。
利益冲突:所有作者均声明不存在利益冲突。
[1] |
Wu F, Zhao S, Yu B, et al. A new coronavirus associated with human respiratory disease in China[J]. Nature, 2020, 579(7798): 265-269. DOI:10.1038/s41586-020-2008-3 |
[2] |
World Health Organization. Global tuberculosis report 2022[EB/OL]. (2022-10-27)[2023-12-24]. https://www.who.int/publications/i/item/9789240061729.
|
[3] |
Li XX, Wang LX, Zhang J, et al. Exploration of ecological factors related to the spatial heterogeneity of tuberculosis prevalence in P. R. China[J]. Glob Health Action, 2014, 7: 23620. DOI:10.3402/gha.v7.23620 |
[4] |
Cao K, Yang K, Wang C, et al. Spatial-temporal epidemiology of tuberculosis in mainland China: an analysis based on Bayesian theory[J]. Int J Environ Res Public Health, 2016, 13(5): 469. DOI:10.3390/ijerph13050469 |
[5] |
饶华祥. 基于时空聚集面板模型的肺结核病高危区域探测及影响因素研究[D]. 太原: 山西医科大学, 2017. Rao HX. High-risk areas detection and influencing factors analysis of tuberculosis based on the space-time clustering panel model[D]. Taiyuan: Shanxi Medical University, 2017. |
[6] |
Li QH, Liu MY, Zhang YJ, et al. The spatio-temporal analysis of the incidence of tuberculosis and the associated factors in mainland China, 2009-2015[J]. Infect Genet Evol, 2019, 75: 103949. DOI:10.1016/j.meegid.2019.103949 |
[7] |
Bie SY, Hu XJ, Zhang HG, et al. Influential factors and spatial-temporal distribution of tuberculosis in mainland China[J]. Sci Rep, 2021, 11(1): 6274. DOI:10.1038/s41598-021-85781-7 |
[8] |
李平, 王富珍, 杨宏, 等. 中国2004—2021年流行性腮腺炎流行病学特征和时空聚集性[J]. 中国疫苗和免疫, 2023, 29(1): 19-24. Li P, Wang FZ, Yang H, et al. Epidemiological characteristics and spatial-temporal clustering of mumps in China, 2004-2021[J]. Chinese Journal of Vaccines and Immunization, 2023, 29(1): 19-24. |
[9] |
罗慧, 农艺, 唐忠. 广西医疗卫生资源配置的空间分布及聚集性分析[J]. 中国卫生资源, 2017, 20(2): 114-117. Luo H, Nong Y, Tang Z. Spatial distribution and clustering analysis of the health resource allocation in Guangxi[J]. Chinese Health Resources, 2017, 20(2): 114-117. |
[10] |
吴田勇, 曾庆, 刘世炜, 等. 重庆市2008—2011年结核病疾病空间分布及影响因素分析[J]. 上海交通大学学报(医学版), 2013, 33(4): 489-492. Wu TY, Zeng Q, Liu SW, et al. Analysis of spatial distribution and influencing factors of tuberculosis in Chongqing from 2008 to 2011[J]. Journal of Shanghai Jiaotong University(Medical Science), 2013, 33(4): 489-492. |
[11] |
Zhang YJ, Liu MY, Wu SS, et al. Spatial distribution of tuberculosis and its association with meteorological factors in mainland China[J]. BMC Infect Dis, 2019, 19(1): 379. DOI:10.1186/s12879-019-4008-1 |
[12] |
Smith GS, Schoenbach VJ, Richardson DB, et al. Particulate air pollution and susceptibility to the development of pulmonary tuberculosis disease in North Carolina: an ecological study[J]. Int J Environ Health Res, 2014, 24(2): 103-112. DOI:10.1080/09603123.2013.800959 |
[13] |
Xie TF, Cao RY, Du J. Variable selection for spatial autoregressive models with a diverging number of parameters[J]. Stat Pap, 2020, 61(3): 1125-1145. DOI:10.1007/s00362-018-0984-2 |
[14] |
王庆喜, 蒋烨, 陈卓咏. 区域经济研究实用方法: 基于ArcGIS, GeoDa和R的运用[M]. 北京: 经济科学出版社, 2014. Wang QX, Jiang Y, Chen ZY. Practical methods of regional economic research: Application based on ArcGIS, GeoDa and R[M]. Beijing: Economic Science Press, 2014. |
[15] |
Fan JQ, Li RZ. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. J Am Stat Assoc, 2001, 96(456): 1348-1360. DOI:10.1198/016214501753382273 |
[16] |
Chen JM, Chen YQ, Sun YX. Control of COVID -19 in China likely reduced the burden of multiple other infectious diseases[J]. J Infect, 2022, 84(4): 579-613. |
[17] |
全国第五次结核病流行病学抽样调查技术指导组, 全国第五次结核病流行病学抽样调查办公室. 2010年全国第五次结核病流行病学抽样调查报告[J]. 中国防痨杂志, 2012, 34(8): 485-508. Technical Guidance Group of the Fifth National TB Epidemiological Survey, The Office of the Fifth National TB Epidemiological Survey. The fifth national tuberculosis epidemiological survey in 2010[J]. Chinese Journal of Antituberculosis, 2012, 34(8): 485-508. |
[18] |
毕圣贤, 胡锡健, 张辉国. 2014—2018年中国大陆结核病疫情的时空分布特征及其影响因素[J]. 中华疾病控制杂志, 2021, 25(7): 758-762, 811. Bi SX, Hu XJ, Zhang HG. Temporal-spatial distribution characteristics and its influencing factors of tuberculosis epidemic in the Chinese mainland from 2014 to 2018[J]. Chinese Journal of Disease Control & Prevention, 2021, 25(7): 758-762, 811. |
[19] |
王雅婷, 朋文佳, 苏华林, 等. 上海市2013—2020年肺结核病例时空特征及影响因素分析[J]. 中华流行病学杂志, 2023, 44(8): 1231-1236. Wang YT, Peng WJ, Su HL, et al. Spatial-temporal characteristics and influencing factors of pulmonary tuberculosis cases in Shanghai from 2013 to 2020[J]. Chinese Journal of Epidemiology, 2023, 44(8): 1231-1236. |
[20] |
赵明扬, 周乾宇, 王荣荣, 等. 基于时空地理加权回归模型的中国肺结核发病情况及影响因素研究[J]. 中国全科医学, 2023, 26(5): 583-590. Zhao MY, Zhou QY, Wang RR, et al. Influencing factors of the incidence of pulmonary tuberculosis in China: an analysis using the geographically and temporally weighted regression model[J]. Chinese General Practice, 2023, 26(5): 583-590. |