中华流行病学杂志  2016, Vol. 37 Issue (6): 895-899   PDF    
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.06.031
中华医学会主办。
0

文章信息

魏珍, 张雪雷, 饶华祥, 王华芳, 王祥, 仇丽霞.
Wei Zhen, Zhang Xuelei, Rao Huaxiang, Wang Huafang, Wang Xiang, Qiu Lixia.
禁忌搜索算法的贝叶斯网络模型在冠心病影响因素分析中的应用
Using the Tabu-search-algorithm-based Bayesian network to analyze the risk factors of coronary heart diseases
中华流行病学杂志, 2016, 37(6): 895-899
Chinese Journal of Epidemiology, 2016, 37(6): 895-899
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.06.031

文章历史

投稿日期:2015-10-15
禁忌搜索算法的贝叶斯网络模型在冠心病影响因素分析中的应用
魏珍1, 张雪雷2, 饶华祥1, 王华芳1, 王祥1, 仇丽霞1     
1. 030001 太原, 山西医科大学公共卫生学院卫生统计学教研室;
2. 710054 西安, 陕西省疾病预防控制中心信息所
摘要: 以10792例冠心病调查数据为例,依据禁忌搜索算法构建冠心病患病及其影响因素的贝叶斯网络模型,用极大似然估计法计算网络各节点的条件概率,并分析冠心病的影响因素,评价贝叶斯网络模型相对于传统的logistic回归模型在疾病影响因素分析中的优劣,探讨贝叶斯网络模型在临床研究中的适用性。分析结果表明,贝叶斯网络可以揭示冠心病各影响因素间的关联及与冠心病的关系,比logistic回归分析更符合实际理论,表明贝叶斯网络模型在冠心病影响因素分析中具有较好的适用性及应用前景。
关键词: 贝叶斯网络    禁忌搜索算法    logistic回归    冠心病    影响因素    
Using the Tabu-search-algorithm-based Bayesian network to analyze the risk factors of coronary heart diseases
Wei Zhen1, Zhang Xuelei2, Rao Huaxiang1, Wang Huafang1, Wang Xiang1, Qiu Lixia1     
1. Department of Health Statistics, School of Public Health, Shanxi Medical University, Taiyuan 030001, China;
2. Department of Information, Shaanxi Provincial Center for Disease Control and Prevention, Xi'an 710054, China
Corresponding author: Qiu Lixia,Email:qlx_1126@163.com
Abstract: Under the available data gathered from a coronary study questionnaires with 10 792 cases, this article constructs a Bayesian network model based on the tabu search algorithm and calculates the conditional probability of each node, using the Maximum-likelihood. Pros and cons of the Bayesian network model are evaluated to compare against the logistic regression model in the analysis of coronary factors. Applicability of this network model in clinical study is also investigated. Results show that Bayesian network model can reveal the complex correlations among influencing factors on the coronary and the relationship with coronary heart diseases. Bayesian network model seems promising and more practical than the logistic regression model in analyzing the influencing factors of coronary heart disease.
Key words: Bayesian network    Tabu search algorithm    Logistic regression    Coronary heart disease    Influencing factors    

冠心病发病机制目前虽尚未完全阐明,但其主要影响因素如年龄、性别、BMI、吸烟和高血压等均已明确[1, 2, 3, 4],且各因素间相互关联直接或间接作用于冠心病的发生和发展过程。以往对冠心病影响因素的统计学建模方法,通常是以各影响因素相互独立为前提,建立logistic回归模型,根据OR值反映各因素与冠心病的关联强度。但实际情况,这些因素相互间并不独立且可能存在复杂的网络关系。贝叶斯网络是基于概率的不确定性推理方法,对统计假设没有严格要求,通过构建有向无环图直观反映多因素间的潜在关系,利用条件概率分布表反映关系强度[5]。禁忌搜索是模拟人类记忆功能的全局智能优化算法,能跳出局部搜索,发现全局最优解。故笔者以冠心病影响因素为着手点,利用禁忌搜索算法优化贝叶斯网络结构,通过对比logistic回归模型阐明贝叶斯网络的优势,验证其在冠心病影响因素分析中的合理性。

基本原理

1. 贝叶斯网络:是基于概率的不确定性推理方法,用来揭示多个数据间的潜在关系。贝叶斯网络由一个有向无环图G=(V,E)和一组条件概率分布P组成。有向无环图G=(V,E)包括节点和节点之间的有向边,节点表示随机变量,有向边表示相应变量XiXj间直接的概率依赖关系,如果从XiXj有一条边且箭头指向Xj,那么称XiXj的父节点,而XjXi的子节点;条件概率分布P表示每个节点Xi在给定父节点状态下的条件概率分布。由于有向无环图G定性地刻画了变量之间的依赖和独立关系,而条件概率分布定量地描述了节点与其父节点的概率依赖程度[6]。所以贝叶斯网络利用图形结构和网络参数唯一确定了在随机变量X={X1,…,Xn}上的一个联合概率分布[7],即

式中πXi)表示节点Xi的父节点集合,πXi)⊆{X1,…,Xi-1},给定πXi)的值,Xi与{X1,…,Xi-1}中的其他变量条件独立。

构建贝叶斯网络应①确定贝叶斯网络节点:为避免由于纳入节点太多,导致网络结构过于复杂,需结合专家的先验知识或传统的统计方法进行节点的初步筛选;②结构学习:根据禁忌搜索算法进行模型优化,找出最优模型;③参数学习:在结构学习的基础上,采用极大似然估计法计算网络各节点的条件概率。

2. 禁忌搜索算法优化贝叶斯网络:贝叶斯网络的结构学习就是在给定随机变量X={X1,…,Xn}的前提下,选出一个最匹配n个变量之间真实依赖关系的贝叶斯网络的过程。禁忌搜索算法是模拟人类记忆功能的亚启发式求解算法,具有参数少,结构简单和全局寻优能力强等特点。对于给定的一个当前网络结构,本算法在不产生网络环路的前提下,采用加边、减边、逆向边3个操作来产生邻域,然后在邻域中搜索局部优解放入禁忌表,通过禁忌表记录搜索的局部最优解,使得下次搜索中尽量避开该优解,避免搜索过程循环重复,配合使用蔑视准则对禁忌表中某些优解进行“特赦”,忽略对其的禁忌限制,这两个步骤迭代进行,循环搜索,不断更新禁忌表,最终得到全局最优解[8]

实例分析

本研究所用资料源自某冠心病调查数据,共获得有效数据10 792例,调查内容涉及性别、年龄、文化程度、BMI、吸烟、饮酒、高血压和冠心病8个变量。评价标准包括①高血压:根据WHO的标准,SBP≥140 mmHg(1 mmHg=0.133 kPa)和/或DBP≥90 mmHg,或既往有高血压史,目前正服抗高血压药者;②冠心病:既往在县级以上医院诊断为冠心病者;③BMI<18.5 kg/m2为体重过低,18.5~23.9 kg/m2为正常,24.0~27.9 kg/m2为超重,≥28.0 kg/m2 为肥胖[9];④吸烟:日均吸烟>1支,连续6个月者;⑤饮酒:每周至少饮酒1次,每次酒精摄入量在>50 g,连续6个月者。统计学分析采用SPSS 20.0软件进行统计描述和logistic回归分析,检验水准均取0.05。利用R i386 3.1.2软件中的贝叶斯网络学习程序(bnlearn package)中的tabu()函数进行贝叶斯网络的结构学习,采用极大似然估计法进行贝叶斯网络的参数学习,用Netica软件绘制得到的贝叶斯网络及条件概率分布表。变量列表及赋值见表 1

表 1 变量及赋值

1. 人群特征及冠心病患病水平:不同性别人群的文化水平和是否饮酒的差异有统计学意义(P<0.001),不同年龄人群的文化程度、BMI和是否饮酒情况的差异有统计学意义(P<0.001),其中男性文化程度和饮酒比率普遍高于女性,<45岁人群文化程度和饮酒比率较高,45~59岁人群超重/肥胖(BMI≥24.0 kg/m2)比率最高,占50.7%(表 2)。不同性别、年龄、文化程度、BMI和是否饮酒的人群中高血压患病率的差异有统计学意义(P<0.01),不同性别、文化程度和是否饮酒的人群中吸烟率的差异有统计学意义(P<0.001),男性高血压患病率高于女性,且随着年龄或BMI的增加,高血压患病率也逐渐增高,低文化程度人群高血压患病率较高,男性吸烟率(49.5%)明显高于女性(4.1%),饮酒者的吸烟率(57.6%)明显高于不饮酒人群(13.8%),初中文化程度人群的吸烟率较高(26.6%)(表 3)。可见研究冠心病的各因素间存在复杂的关系。

表 2 不同性别、年龄别与冠心病其他各影响因素的关系
表 3 人群高血压现患率和吸烟率水平

不同性别、年龄、文化程度、BMI、是否吸烟和有无高血压的人群中冠心病的现患率差异有统计学意义(P<0.001),男性冠心病患病风险高于女性(OR=1.741);冠心病多发生于>45岁人群,随着年龄或BMI的增加,冠心病患病率也逐渐增高;文化程度与冠心病患病率呈负相关,随着文化程度的升高,冠心病的患病率在下降;吸烟人群患病率高于不吸烟人群(OR=1.995);高血压患者患有冠心病的风险比普通人高1.529倍(OR=2.529);而是否饮酒的人群中冠心病患病率的差异无统计学意义(P>0.05)(表 4)。

表 4 人群冠心病患病率的特征和水平

2. 冠心病影响因素logistic回归分析:选择冠心病患病率的特征和水平中差异有统计学意义的变量为自变量,采用逐步法(入选标准0.05,剔除标准0.10)进行变量筛选。结果显示性别、年龄、BMI、吸烟和高血压与冠心病的关联具有统计学意义(P<0.001)(表 5),其中年龄、吸烟和高血压是冠心病的主要影响因素,男性、年龄越大、BMI越高、吸烟、患有高血压的人群患冠心病的危险性较大。在logistic回归分析中,对各因素的分析是平行的,无法推断出各影响因素在冠心病发生和发展过程中的哪一个环节起作用。

表 5 冠心病多因素logistic回归分析

3. 贝叶斯网络:

(1)构建网络:按上述资料的结构和参数,构建含8个节点、14条有向边的冠心病影响因素的贝叶斯网络模型,并获得各节点的条件概率。有向边反映冠心病影响因素间的相互作用或影响。从图 1网络可见,节点性别、年龄、文化程度、BMI、吸烟、饮酒、高血压通过复杂的网络关系与冠心病建立联系,其中年龄、吸烟和高血压与冠心病有直接关系,这与多因素logistic回归分析中冠心病的主要影响因素结果相一致,而其他因素是通过这些直接因素间接与冠心病相联系。节点“BMI”通过与“高血压”相联系,间接与“冠心病”建立联系,提示高血压是BMI与冠心病建立关联的中间变量;“饮酒”与“吸烟”有关联,“性别”又与“吸烟”和“饮酒”有关联,提示人群饮酒和吸烟行为可能存在聚集现象,并且这些不健康的生活行为可能是男性患冠心病的风险高于女性的原因之一。

图 1 禁忌搜索算法构建的冠心病贝叶斯网络

(2)模型的推理:贝叶斯网络的推理可用条件概率分布表表示。表 6为人群性别、饮酒和文化程度与吸烟情况之间的条件概率分布。在其他条件一致的情况下,男性的吸烟率明显高于女性,且文化程度愈低吸烟率越高;小学及以下文化程度且饮酒的男性,吸烟率最大(0.717);具有饮酒行为的人群较不饮酒的吸烟率大,说明饮酒和吸烟行为可能存在伴随关系。

表 6 性别、饮酒和文化程度为父节点的吸烟情况条件概率分布(%)
讨 论

通过禁忌搜索算法构建的贝叶斯网络模型,可发现冠心病各影响因素存在复杂的网络关系。BMI与高血压有关,Mendelian研究表明,BMI每增加10%,SBP升高3.9 mmHg[10]。Brown等[11]研究表明,随着BMI的升高,男性和女性发生高血压均显著增加。高血压又与冠心病有关联,且BMI、高血压和冠心病与年龄都有关联。高血压是患冠心病的最常见的危险因素[12, 13]。有研究表明,肥胖与脂肪组织功能紊乱有关,并使血管内皮功能紊乱,血小板黏附聚集及冠脉粥样硬化,供血不足,心肌缺血,进而引起冠心病[14]。提示肥胖与高血压均为冠心病的危险因素,并且高血压可能是肥胖导致冠心病发生过程中的一个中间变量,肥胖通过引起高血压间接影响冠心病的发生。可见贝叶斯网络不仅能发现冠心病的主要影响因素,更能深入地挖掘出冠心病发生和发展的某个中间环节的影响因素。

饮酒和文化程度与吸烟有关,吸烟与冠心病直接相关,饮酒、吸烟和文化程度与性别都有关联。有研究表明,低文化程度与冠心病的发生有关,主要是因为文化程度与影响冠状动脉粥样硬化的危险因素如高血压、肥胖和吸烟呈强烈的负相关[15, 16]。另有研究发现,吸烟与饮酒行为密切相关,吸烟者发展成酗酒的可能性是不吸烟者的10倍,同样慢性饮酒会增加尼古丁对人体的神经活性,进而加大吸烟量[17]。在我国吸烟和饮酒主要是男性的行为,本文实例中基本人口学特征也显示,男性吸烟率(49.5%)明显高于女性(4.1%),男性饮酒率(46.5%)也普遍高于女性(6.2%)。由此可知,构建贝叶斯网络可发现冠心病各影响因素间可能存在的聚集现象,以及各影响因素在冠心病发生过程中所起的作用,这也对冠心病防治措施提供了科学依据。

相对于logistic回归模型,贝叶斯网络模型在对冠心病影响因素分析方面更具合理性。首先从独立性而言,根据人口学特征分析可以看出影响冠心病的各因素间存在着相互关联,而冠心病logistic回归分析往往是在假设各变量相互独立的前提下,拟合回归模型,未能充分的利用数据信息,不能真实地反映各因素对冠心病的影响及其相互间的联系,因此不能为冠心病的防治提供科学的依据。贝叶斯网络则是结合疾病相关知识构建网络模型,且该模型对数据的分布无严格的要求,因此能够充分挖掘数据的潜在信息,揭示出多因素间多层次的相互关系,为冠心病的评估、预测及防治提供科学的依据。其次从变量间的关系而言,logistic回归分析只能揭示出冠心病的几个独立的影响因素,而贝叶斯网络模型可以通过图形的方法进一步描述各因素间是如何相互关联并影响冠心病的发生,这一点对发现研究线索和潜在影响因素有一定的意义。当各因素间存在交互作用时,logistic回归需要专门设置交互项,而贝叶斯网络则能够直接识别所有因素间的交互作用,便于全面深入发掘因素间的内部调控关系。

然而,贝叶斯网络模型也存在不足。如不能通过OR值反映不同暴露水平对某一致病结局的关联强度大小;再如只有在利用因果关系建立起来的贝叶斯网络中,变量间的有向边表示的是因果关系[7],如本文图 1中“高血压”是“BMI”的父节点,模型只提示高血压和BMI存在相关关系,并不能说明高血压是BMI的原因。如需进一步确定变量间是否有因果关系,需要结合相关专业知识进一步分析。

利益冲突

参考文献
[1] Jousilahti P,Vartiainen E,Tuomilehto J,et al. Sex,age,cardiovascular risk factors,and coronary heart disease:a prospective follow-up study of 14786 middle-aged men and women in Finland[J]. Circulation,1999,99(9):1165-1172. DOI:10.1161/01.CIR.99.9.1165.
[2] 赵映,田峰,胡舜英,等. 不同性别冠心病患者危险因素及冠状动脉病变特点分析[J]. 中华流行病学杂志,2012,33(4):423-427. DOI:10.3760/cma.j.issn.0254-6450.2012.04.017. Zhao Y,Tian F,Hu SY,et al. Characteristics of traditional risk factors and coronary lesions on coronary heart disease among different sex populations[J]. Chin J Epidemiol,2012,33(4):423-427. DOI:10.3760/cma.j.issn.0254-6450.2012.04.017.
[3] Roeters van Lennep JER,Westerveld HT,Erkelens DW,et al. Risk factors for coronary heart disease:implications of gender[J]. Cardiovasc Res,2002,53(3):538-549. DOI:10.1016/s0008-6363(01)00388-1.
[4] 陆丕能,孙宁玲,陆鋆,等. 吸烟量与冠心病关系的病例对照研究[J]. 中华流行病学杂志,2002,23(4):297-300. Lu PN,Sun NL,Lu J,et al. Case control study on the association of coronary artery disease and cigarette smoking[J]. Chin J Epidemiol,2002,23(4):297-300.
[5] Garcia-Herrero S,Mariscal MA,Gutiérrez JM,et al. Using Bayesian networks to analyze occupational stress caused by work demands:preventing stress through social support[J]. Accid Anal Prev,2013,57:114-123. DOI:10.1016/j.aap.2013.04.009.
[6] 李丽华,丁香乾,贺英,等. 基于Tabu搜索的贝叶斯网络在烟叶香型评价中的应用[J]. 计算机应用与软件,2012,29(3):225-227. DOI:10.3969/j.issn.1000-386X.2012.03.061. Li LH,Ding XQ,He Y,et al. Applying tabu search-based bayesian network in appraising aroma types of tobacco[J]. Comput Applicat Software,2012,29(3):225-227. DOI:10. 3969/j.issn.1000-386X.2012.03.061.
[7] Lee SM,Abbott PA. Bayesian networks for knowledge discovery in large datasets:basics for nurse researchers[J]. J Biomed Inform,2003,36(4/5):389-399. DOI:10.1016/j.jbi.2003.09.022.
[8] Stepanenko S,Engels B. Tabu search based strategies for conformational search[J]. J Phys Chem A,2009,113(43):11699-11705. DOI:10.1021/jp9028084.
[9] Zhou BF. Predictive values of body mass index and waist circumference for risk factors of certain related diseases in Chinese adults:study on optimal cut-off points of body mass index and waist circumference in Chinese adults[J]. Biomed Environ Sci,2002,15(1):83-96. DOI:10.1046/j.1440-6047.11.s8.9.x.
[10] Timpson NJ,Harbord R,Davey Smith G,et al. Does greater adiposity increase blood pressure and hypertension risk?Mendelian randomization using the FTO/MC4R genotype[J]. Hypertension,2009,54(1):84-90. DOI:10.1161/HYPERTENSIONAHA.109.130005.
[11] Brown CD,Higgins M,Donato KA,et al. Body mass index and the prevalence of hypertension and dyslipidemia[J]. Obes Res,2000,8(9):605-619. DOI:10.1038/oby.2000.79.
[12] Renna NF,de Las Heras N,Miatello RM. Pathophysiology of vascular remodeling in hypertension[J]. Int J Hypertens,2013,2013:808353. DOI:org/10.1155/2013/808353.
[13] Zandi-Nejad K,Luyckx VA,Brenner BM. Adult hypertension and kidney disease:the role of fetal programming[J]. Hypertension,2016,47(3):502-508. DOI:10.1161/01.HYP.0000198544.09909.1a.
[14] Cho E,Manson JE,Stampfer MJ,et al. A prospective study of obesity and risk of coronary heart disease among diabetic women[J]. Diabetes Care,2002,25(7):1142-1148. DOI:10.2337/diacare.25.7.1142.
[15] Winkleby MA,Fortmann SP,Barrett DC. Social class disparities in risk factors for disease:eight-year prevalence patterns by level of education[J]. Prev Med,1990,19(1):1-12. DOI:10.1016/0091-7435(90)90001-Z.
[16] Bobak M,Hertzman C,Skodova Z,et al. Socioeconomic status and cardiovascular risk factors in the Czech Republic[J]. Int J Epidemiol,1999,28(1):46-52. DOI:10.1093/ije/28.1.46.
[17] King A,McNamara P,Angstadt M,et al. Neural substrates of alcohol-induced smoking urge in heavy drinking nondaily smokers[J]. Neuropsychopharmacology,2010,35(3):692-701. DOI:10.1038/npp.2009.177.