中国媒介生物学及控制杂志  2021, Vol. 32 Issue (4): 475-480

扩展功能

文章信息

李皓晨, 齐滢滢, 张翀, 韩文菊, 沈铁峰, 李德强, 关鹏, 黄德生
LI Hao-chen, QI Ying-ying, ZHANG Chong, HAN Wen-ju, SHEN Tie-feng, LI De-qiang, GUAN Peng, HUANG De-sheng
基于贝叶斯网络的肾综合征出血热发病率预测模型研究
A Bayesian network-based prediction model for the incidence of hemorrhagic fever with renal syndrome
中国媒介生物学及控制杂志, 2021, 32(4): 475-480
Chin J Vector Biol & Control, 2021, 32(4): 475-480
10.11853/j.issn.1003.8280.2021.04.019

文章历史

收稿日期: 2020-10-28
基于贝叶斯网络的肾综合征出血热发病率预测模型研究
李皓晨1 , 齐滢滢1 , 张翀1 , 韩文菊1 , 沈铁峰2 , 李德强2 , 关鹏1 , 黄德生1,3     
1 中国医科大学公共卫生学院流行病学教研室, 辽宁沈阳 110122;
2 葫芦岛市疾病预防控制中心, 辽宁 葫芦岛 125000;
3 中国医科大学公共基础学院数学教研室, 辽宁沈阳 110122
摘要: 目的 利用贝叶斯网络研究辽宁省葫芦岛市肾综合征出血热(HFRS)的影响因素并构建发病率预测模型。方法 收集葫芦岛市2008年1—10月HFRS监测点的发病数据、宿主疫情数据及气象数据,采用禁忌搜索算法对贝叶斯网络进行结构学习,采用最大似然估计对贝叶斯网络进行参数学习。结果 葫芦岛市HFRS发病与鼠密度、当月的平均风速和日照时数、滞后1个月的平均最高气温、相对湿度和归一化植被指数、滞后2个月的平均气温、平均最低气温、平均气压和降水量在0.01水平上相关,相关系数分别为0.691、0.689、0.345、-0.635、-0.631、-0.674、-0.714、-0.746、0.650和-0.643。利用气象和宿主资料对HFRS发病率进行预测时,贝叶斯网络模型的预测准确率为85.00%(17/20),精确率为83.33%(10/12),受试者工作特征曲线下面积为0.919。结论 基于贝叶斯网络构建的发病率预测模型对葫芦岛市HFRS的预测准确率较高,对HFRS的防控有一定的参考价值。
关键词: 贝叶斯网络    肾综合征出血热    发病率    预测    
A Bayesian network-based prediction model for the incidence of hemorrhagic fever with renal syndrome
LI Hao-chen1 , QI Ying-ying1 , ZHANG Chong1 , HAN Wen-ju1 , SHEN Tie-feng2 , LI De-qiang2 , GUAN Peng1 , HUANG De-sheng1,3     
1 Departnnent of Epidemidogy, School of Public Health, China Medical University, Shenyang, Liaoning 110122, China;
2 Huludao Center for Disease Control and Prevention, Huludao, Liaoning 125000, China;
3 School of Fundamental Sciences, China Medical University, Shenyang, Liaoning 110122, China
Abstract: Objective To study the influencing factors for hemorrhagic fever with renal syndrome (HFRS) in Huludao, Liaoning province, China and to construct an incidence prediction model using a Bayesian network. Methods Data about incidence, host, and meteorological conditions of HFRS were collected at surveillance sites in Huludao from January 2008 to October 2018. The tabu search algorithm was used to learn the structure of the Bayesian network, and maximum likelihood estimation was applied to estimate Bayesian network parameters. Results At the 0.01 level, factors associated with the incidence of HFRS in Huludao included: rodent density; the average wind speed and sunshine hours in the contemporaneous month; the average maximum temperature, relative humidity, and normalized difference vegetation index with a one-month lag; and the average temperature, average minimum temperature, average atmospheric pressure, and precipitation with a two-months lag. The correlation coefficients were 0.691, 0.689, 0.345, -0.635, -0.631, -0.674, -0.714, -0.746, 0.650, and -0.643, respectively. When using meteorological and host data to predict the incidence of HFRS, the accuracy of the Bayesian network model was 85.00% (17/20), the precision was 83.33% (10/12), and the area under the receiver operating characteristic curve was 0.919. Conclusion The Bayesian network-based incidence prediction model shows a relatively high prediction accuracy for HFRS in Huludao, providing a certain reference for HFRS prevention and control.
Key words: Bayesian network    Hemorrhagic fever with renal syndrome    Incidence    Prediction    

肾综合征出血热(HFRS)是一种由汉坦病毒(Hantavirus,HV)引起的,以鼠类为主要传染源的自然疫源性疾病[1]。我国是世界上HFRS发病最严重的国家,每年报告的总发病例数占全球HFRS总数的90%以上[2],其中辽宁省发病数和发病率位于全国前列[3],呈现高度散发但又相对集中的特点,各市均有病例报告,主要集中在辽东、辽西山区及中部地区,但各地鼠间疫情差异较大,特别是葫芦岛市鼠带病毒率高于全省平均水平,且逐年上升,人间疫情也逐年加重[4]。王磊和刘起勇[5]应用贝叶斯网络在全国空间尺度上已成功构建HFRS的传播预测模型,但在省级或市级空间尺度上贝叶斯网络的预测效能仍需进一步探究。本研究利用贝叶斯网络构建葫芦岛市HFRS的发病率预测模型,探讨此模型在预测分析HFRS流行趋势上的应用,分析HFRS发病率及其影响因素以及各影响因素之间的相关关系和相互作用,为进一步完善HFRS的防控策略、制定有针对性的预防措施提供参考依据,也为其他传染病的防控提供有效的方法学参考。

1 材料与方法 1.1 材料来源

2008年1—10月葫芦岛市HFRS发病数据和宿主疫情数据(鼠密度)来源于葫芦岛市疾病预防控制中心(CDC);气象数据(月平均气温、月平均最高气温、月平均最低气温、月平均气压、月平均风速、月降水量、月相对湿度、月日照时数)来源于中国气象科学数据共享服务网(http://data.cma.cn);归一化植被指数(normalized difference vegetation index,NDVI)数据来源于中国科学院资源环境科学数据中心(http://www.resdc.cn)。

1.2 分析方法 1.2.1 相关性分析

将收集的数据整理后录入到Excel 2010软件,利用SPSS 23.0软件进行数据处理,对当月、滞后1个月、滞后2个月、滞后3个月的气象因素和NDVI与HFRS发病情况进行相关性分析。

1.2.2 数据预处理

由于贝叶斯网络学习只能处理离散型变量,而原始数据中包含连续型变量,因此本研究选择等宽区间的无监督离散化算法对各连续型影响因素进行分类。2008年1—10月葫芦岛市各月HFRS发病率数据根据中位数分级,≤中位数者赋值为0,> 中位数者赋值为1[6]

1.2.3 贝叶斯网络学习

选择R 4.0.2软件中用于学习贝叶斯网络的bnlearn包,利用sample()函数随机选取70%条数据作为训练集,剩余30%条数据作为验证集。采用禁忌搜索算法对贝叶斯网络进行结构学习,采用最大似然估计对贝叶斯网络进行参数学习,最后利用贝叶斯网络推理对模型进行验证。

2 结果 2.1 HFRS发病概况、宿主信息及数据预处理结果

HFRS发病概况和宿主信息见表 1,各连续型变量分类赋值结果见表 2,数据精度直接选用源数据库的数据精度。2008年1—10月HFRS月别发病率最大值为2.23/10万,最小值为0,中位数为0.68/10万,将≤0.68/10万者赋值为0,> 0.68/10万者赋值为1。

表 1 辽宁省葫芦岛市肾综合征出血热发病概况和宿主信息 Table 1 The incidence and host information of hemorrhagic fever with renal syndrome in Huludao, Liaoning province
表 2 连续型肾综合征出血热发病率影响因素分类赋值情况 Table 2 Assignment for continuous variables that affect the incidence of hemorrhagic fever with renal syndrome
2.2 相关性分析

考虑到气象因素的滞后性,进行Spearman相关性分析,结果见表 3。从分析结果可知,HFRS发病率与当月的平均风速(r=0.689,P < 0.001)和日照时数(r=0.345,P=0.005)关联程度最强,呈正相关;与滞后1个月的平均最高气温(r=-0.635,P < 0.001)、相对湿度(r=-0.631,P < 0.001)和NDVI(r=-0.674,P < 0.001)关联最密切,均呈负相关;与滞后2个月的平均气温(r=-0.714,P < 0.001)、平均最低气温(r=-0.746,P < 0.001)、平均气压(r=0.650,P < 0.001)和降水量(r=-0.643,P < 0.001)在0.01水平上关联最紧密,其中平均气压呈正相关,其余三者为负相关。本研究选取上述的相关系数水平最高的当月和滞后数据作为后续的分析数据。

表 3 辽宁省葫芦岛市肾综合征出血热发病与气象因素滞后性相关分析 Table 3 Lagged correlation between meteorological factors and the incidence of hemorrhagic fever with renal syndrome in Huludao, Liaoning province
2.3 贝叶斯网络结构学习

首先利用随机抽取的训练集,设定随机抽样次数为50,构建50个初始网络结构图,选择贝叶斯信息准则(Bayesian information criterion,BIC)评分最高的结构图作为初始网络。之后,根据葫芦岛市HFRS发病特征和专家知识来确定黑名单(不应该出现在结构图中的弧的集合)和白名单(应该出现在结构图中的弧的集合),对网络结构进行调整,直至网络结构最符合实际情况并能对结果有一个准确预测的模型为止(图 1)。HFRS发病与鼠密度、相对湿度、平均风速、降水量和平均气温直接相关,与日照时数无关。平均气温受平均最高气温和平均最低气温影响,平均气温还与平均气压相关,而平均气压对NDVI值有影响,它们之间不相互独立,从而间接影响HFRS的发病。

图 1 辽宁省葫芦岛市肾综合征出血热发病率与各影响因素关系的贝叶斯网络结构图 Figure 1 Bayesian network structure diagram of the relationship between various influencing factors and the incidence of hemorrhagic fever with renal syndrome in Huludao, Liaoning province
2.4 贝叶斯网络参数学习

本研究采用极大似然估计对贝叶斯网络结构进行参数学习,得到与HFRS发病率等级直接相关的影响因素的条件概率分布情况(表 4)。当某月平均气温在第5个类别,即平均气温在18.03~25.40 ℃时,HFRS发生0级风险的水平最高,概率为0.70,发生1级风险的概率为0.16。又如,假设某月鼠密度为8.50%,对应表 1可知该水平属于第2个类别,那么可知在该水平下HFRS发生0级风险的概率为0.45,发生1级风险的概率为0.25。同理,由此可以计算得到不同影响因素在不同水平时HFRS发病率等级发生的概率。

表 4 辽宁省葫芦岛市肾综合征出血热发病率等级条件概率分布情况 Table 4 Conditional probability distribution of the incidence grades of hemorrhagic fever with renal syndrome in Huludao, Liaoning province
2.5 贝叶斯网络模型验证

在完成贝叶斯网络参数学习后,将剩余的30%条数据作为验证集,利用贝叶斯网络推理对已建立好的贝叶斯网络进行验证,来预测发病率等级的准确性,以检验模型的精度及有效性。经验证,该贝叶斯网络模型预测准确率为85.00%(17/20),精确率为83.33%(10/12)(表 5),其中未正确分类的3条数据中有1条真实情况为HFRS发生0级风险而被预测为1级风险,有2条真实情况为1级风险而被预测为0级风险,受试者工作特征曲线下面积为0.919。

表 5 辽宁省葫芦岛市肾综合征出血热发病率等级预测结果 Table 5 Prediction of the incidence grades of hemorrhagic fever with renal syndrome in Huludao, Liaoning province
3 讨论

本研究首先利用Spearman相关分析对影响葫芦岛市HFRS发病的气象因素和宿主因素进行分析,结果表明葫芦岛市HFRS发病与鼠密度、平均风速、日照时数、平均气压呈正相关,与平均气温、平均最高气温、平均最低气温、相对湿度、降水量和NDVI呈负相关,且不同的影响因素存在不同程度的滞后性,与本课题组和其他相关文献研究基本一致[7-12]。He等[10]通过对中国109个县对比研究发现,平均气温、降雨量、相对湿度和NDVI对HFRS病例存在滞后效应且滞后时间不同,这可能由于不同自然疫源地的气候差异,造成了病毒发育时间、啮齿动物生长、人类感染的响应时间差异等,从而导致对HFRS发病影响的不同。

现有研究表明,HFRS的发生和流行受环境因素、社会因素和经济因素的共同影响,其中社会因素包括人口迁移、砍林造林、土地复垦、农田灌溉、道路修建等人类行为[13-14]。这些行为的改变可能会造成用地类型的变更,增加人类与宿主动物的接触机会;社会因素与环境因素共同作用对HFRS发病率波动的影响已经为科学高效地制定防控对策提供了参考[15],在以后的研究我们将综合考虑更多维度的影响因素以持续提升疫情预测能力。

贝叶斯网络是一种基于概率论和图论的不确定性知识表达和推理的模型[16],它可以对输入的数据直接进行训练,以图形形式直观地显示变量间的因果关系;以条件概率图描述变量间的依赖程度;在数据不足的情况下,可以根据专家知识建模,而不需要历史数据;可以以先验知识推断后验概率;可进行从原因到结果和从结果到原因的双向推理等[17]。贝叶斯网络以其独特的优势简单、清楚地表明各变量间的关系,并能通过设置所构建的模型中节点的状态进行预测,近年来该模型在传染病领域中的应用日益广泛并取得了良好的预测效果,Lau和Smith[18]利用贝叶斯网络探索钩端螺旋体病的传播途径,弥补了传统回归模型的缺陷,发现贝叶斯网络对于具有强烈环境传播因素的传染性疾病的研究性能更佳;Badawi等[19]应用贝叶斯网络构建了包含丙型肝炎病毒感染的网络结构,探讨丙型肝炎病毒感染与心血管疾病之间的概率关系,从而预测人群中罹患心血管疾病的风险。

贝叶斯网络学习及验证结果表明利用贝叶斯网络对葫芦岛市HFRS的发病率预测具备可行性和适用性,但在该研究过程的各个阶段仍存在一定的误差。首先在数据收集整理阶段,对于某些缺失的气象数据,本研究利用多重插补法进行了填充;对于宿主动物资料,根据《全国肾综合征出血热监测方案(试行)》,一般每年仅于春、秋两季进行鼠密度监测,本研究以春季鼠密度和秋季鼠密度分别替代3、4、5月和9、10、11月鼠密度,但在实际情况中各月份的鼠密度处于动态变化,该类无法实时监测的数据本身的不确定性有可能对结果产生影响。其次,在数据处理阶段,构建贝叶斯网络需要对连续型变量进行离散化处理,本研究对发病率等级利用中位数进行分级,对其他变量的处理选取等距的无监督离散化算法,结局变量等级分类标准的确定和离散化方法的选择均可能对模型的预测精度产生影响。最后,在选择衡量网络结构的评分标准上,目前评价网络结构的评分函数主要包括贝叶斯评分函数和基于信息论的评分函数两大类[20],何德琳和程勇[21]认为不同的贝叶斯网络评分准则对网络结构模型的学习效果不同,通过对比研究发现K2评分准则的性能最佳。在未来的研究中,将针对以上几个方面继续进行深入的探讨,以提高贝叶斯网络对HFRS发病率预测的精度和准确度,并探索将此模型应用到其他类别传染病发病率预测和公共卫生相关领域的可行性和适用范围。

利益冲突  无

参考文献
[1]
张永振, 肖东楼, 王玉, 等. 中国肾综合征出血热流行趋势及其防制对策[J]. 中华流行病学杂志, 2004, 25(6): 466-469.
Zhang YZ, Xiao DL, Wang Y, et al. The epidemic characteristics and preventive measures of hemorrhagic fever with syndromes in China[J]. Chin J Epidemiol, 2004, 25(6): 466-469. DOI:10.3760/j.issn:0254-6450.2004.06.002
[2]
Kariwa H, Yoshimatsu K, Arikawa J. Hantavirus infection in East Asia[J]. Comp Immunol Microbiol Infect Dis, 2007, 30(5/6): 341-356. DOI:10.1016/j.cimid.2007.05.011
[3]
Sun L, Zou LX. Spatiotemporal analysis and forecasting model of hemorrhagic fever with renal syndrome in mainland China[J]. Epidemiol Infect, 2018, 146(13): 1680-1688. DOI:10.1017/S0950268818002030
[4]
孙英伟, 韩仰欢, 李鑫, 等. 辽宁省2007—2011年肾综合征出血热疫情监测分析[J]. 中国公共卫生, 2012, 28(6): 838-840.
Sun YW, Han YH, Li X, et al. Prevalence of hemorrhagic fever with renal syndrome in Liaoning province, 2007-2011[J]. Chin J Public Health, 2012, 28(6): 838-840. DOI:10.11847/zgggws-2012-28-06-46
[5]
王磊, 刘起勇. 应用贝叶斯网络推理研究中国肾病综合征出血热的传播机制[J]. 国外医学医学地理分册, 2010, 31(4): 216-220.
Wang L, Liu QY. Bayesian network inference based research on transmission mechanism of hemorrhagic fever with renal syndrome in China[J]. Foreign Med Sci Sect Medgeography, 2010, 31(4): 216-220. DOI:10.3969/j.issn.1001-8883.2010.04.003
[6]
沈铁峰, 黄德生, 吴伟, 等. Bayes判别分析在肾综合征出血热发病预测研究中的应用[J]. 中国媒介生物学及控制杂志, 2009, 20(2): 147-150.
Shen TF, Huang DS, Wu W, et al. Application of Bayesian discriminant analysis in forecasting hemorrhagic fever with renal syndrome[J]. Chin J Vector Biol Control, 2009, 20(2): 147-150.
[7]
吴伟, 郭军巧, 关鹏, 等. 辽宁省2005—2007年肾综合征出血热流行特征及环境危险因素分析[J]. 中国媒介生物学及控制杂志, 2014, 25(1): 39-42.
Wu W, Guo JQ, Guan P, et al. Analysis of epidemiological features of hemorrhagic fever with renal syndrome and associated environmental risk factors in Liaoning province, China during 2005-2007[J]. Chin J Vector Biol Control, 2014, 25(1): 39-42. DOI:10.11853/j.issn.1003.4692.2014.01.011
[8]
许勤勤, 李润滋, 罗成, 等. 潍坊市气象因素对肾综合征出血热发病影响研究[J]. 环境与健康杂志, 2018, 35(2): 149-153.
Xu QQ, Li RZ, Luo C, et al. Relationship between meteorological factors and hemorrhagic fever with renal syndrome in Weifang[J]. J Environ Health, 2018, 35(2): 149-153. DOI:10.16241/j.cnki.1001-5914.2018.02.013
[9]
王智宇, 刘如春, 陈田木. 气候因素对长沙市肾综合征出血热发病影响研究[J]. 中国热带医学, 2015, 15(8): 955-957, 965.
Wang ZY, Liu RC, Chen TM. Influence of climatic factors on hemorrhagic fever with renal syndrome in Changsha[J]. China Trop Med, 2015, 15(8): 955-957, 965. DOI:10.13604/j.cnki.46-1064/r.2015.08.13
[10]
He JY, Wang Y, Mu D, et al. The impacts of climatic factors and vegetation on hemorrhagic fever with renal syndrome transmission in China: a study of 109 counties[J]. Int J Environ Res Public Health, 2019, 16(18): 3434. DOI:10.3390/ijerph16183434
[11]
Wei YH, Wang Y, Li XN, et al. Meteorological factors and risk of hemorrhagic fever with renal syndrome in Guangzhou, southern China, 2006-2015[J]. PLoS Negl Trop Dis, 2018, 12(6): e0006604. DOI:10.1371/journal.pntd.0006604
[12]
张清敏, 禹长兰, 于世成, 等. 气象因素对山东省安丘市肾综合征出血热发病的影响[J]. 中国媒介生物学及控制杂志, 2017, 28(1): 85-86, 89.
Zhang QM, Yu CL, Yu SC, et al. Influence of meteorological factors on hemorrhagic fever with renal syndrome in Anqiu city, Shandong province[J]. Chin J Vector Biol Control, 2017, 28(1): 85-86, 89. DOI:10.11853/j.issn.1003.8280.2017.01.025
[13]
He JY, Christakos G, Wu JP, et al. Spatiotemporal variation of the association between climate dynamics and HFRS outbreaks in Eastern China during 2005-2016 and its geographic determinants[J]. PLoS Negl Trop Dis, 2018, 12(6): e0006554. DOI:10.1371/journal.pntd.0006554
[14]
Li SJ, Ren HY, Hu WS, et al. Spatiotemporal heterogeneity analysis of hemorrhagic fever with renal syndrome in China using geographically weighted regression models[J]. Int J Environ Res Public Health, 2014, 11(12): 12129-12147. DOI:10.3390/ijerph111212129
[15]
Xiao H, Tong X, Gao LD, et al. Spatial heterogeneity of hemorrhagic fever with renal syndrome is driven by environmental factors and rodent community composition[J]. PLoS Negl Trop Dis, 2018, 12(10): e0006881. DOI:10.1371/journal.pntd.0006881
[16]
胡春玲. 贝叶斯网络研究综述[J]. 合肥学院学报(自然科学版), 2013, 23(1): 33-40.
Hu CL. Research overview on Bayesian network[J]. J Hefei Univ(Nat Sci), 2013, 23(1): 33-40.
[17]
黄影平. 贝叶斯网络发展及其应用综述[J]. 北京理工大学学报, 2013, 33(12): 1211-1219.
Huang YP. Survey on Bayesian network development and application[J]. J Beijing Inst Technol, 2013, 33(12): 1211-1219. DOI:10.3969/j.issn.1001-0645.2013.12.001
[18]
Lau CL, Smith CS. Bayesian networks in infectious disease eco-epidemiology[J]. Rev Environ Health, 2016, 31(1): 173-177. DOI:10.1515/reveh-2015-0052
[19]
Badawi A, Di Giuseppe G, Gupta A, et al. Bayesian network modelling study to identify factors influencing the risk of cardiovascular disease in Canadian adults with hepatitis C virus infection[J]. BMJ Open, 2020, 10(5): e035867. DOI:10.1136/bmjopen-2019-035867
[20]
李硕豪, 张军. 贝叶斯网络结构学习综述[J]. 计算机应用研究, 2015, 32(3): 641-646.
Li SH, Zhang J. Review of Bayesian networks structure learning[J]. Appl Res Comput, 2015, 32(3): 641-646. DOI:10.3969/j.issn.1001-3695.2015.03.001
[21]
何德琳, 程勇. 贝叶斯网络评分准则对MMHC算法学习效果的影响[J]. 西南科技大学学报, 2008, 23(2): 56-61.
He DL, Cheng Y. Research of the effect of Bayesian score metric on MMHC learning algorithm[J]. J Southwest Univ Sci Technol, 2008, 23(2): 56-61. DOI:10.3969/j.issn.1671-8755.2008.02.013