有向无环图:语言、规则及应用
郑英杰, 赵耐青
中华流行病学杂志 ![]() ![]() |
![]() |
几乎所有的科学研究都在探索因果关系,如药物/疫苗的效果、政策干预的有效性、引起疾病/促进健康等事件的病因等等。客观世界事物的发生发展有其固有的规律,因果关系研究是科学工作者对沉默世界的主动探索。因此,正确的因果关系推断必须建立在对客观世界病因框架的整体认识上。
客观世界纷繁复杂决定着病因研究的困难。基于有效的背景信息,如何科学地组织并呈现出现实世界中各种因果效应之间的复杂关系,成为病因研究需要解决的优先问题。有向无环图(directed acyclic graphs,DAGs)成为解决这一问题的重要工具,即基于数据的产生过程,DAGs以合乎逻辑的图形(变量、符号以及两者组合构成的路径)及其规则来揭示其所反映的概率关系[1-3],从而刻画客观世界定性的因果关系。
一、DAGs图形语言1.符号:DAGs的符号主要为单箭头“→”,少数有问号“?”、方框“□”、括号“()”、虚线“┈”和双箭头虚线“
(1) 单箭头“→”和问号“?”:因果效应如何描述?简单地,对病因A及其效应B,应用单箭头“→”表示为“A→B”(图 1):箭头方向反映时序关系,箭头两端变量反映了它们之间存在的因果关系。“A→B”代表变量A发生时间在前,变量B发生时间在后;变量A是B的病因,变量B是A的效应。
![]() |
图 1 DAGs示意图 |
如果A→B的效应是我们拟估计或研究的,那么在DAGs中,可在单箭头上方添加问号“?”,即“”,代表效应的不确定性。
(2) 方框“□”和括号“()”:DAGs中的变量被方框“□”所包围的结构,称之为带框变量,如
(3) 虚线“┈”:用于代表着在对变量进行调整时,导致在DAGs中的变量之间将产生新的关联,可能影响变量之间的效应估计。虚线主要用于调整碰撞变量时产生的新关联[4]:如图 1中,因变量C为变量B和变量E的共同效应,调整C将使得B和E之间在原有B→E的基础上,产生新的关联B┈E。因这种关联并非客观世界所固有的,而是因调整而产生,也称B┈E为触发路径;通常在提供设计和分析思路时用于简化DAGs。
(4) 双箭头虚线“
![]() |
图 2 干扰变量对因果效应的影响 |
2.变量(节点)与路径:DAGs中的变量,也称为节点(Vertex或Node),如图 1中的A-G,其中
(1) 变量(或节点)间的关系(相邻性和代际关系):在一特定路径上,由一个连接符接在一起的两个变量(或节点),称为相邻变量,表现为相邻关系,如图 1中的A→B,A→D,E→
(2) 碰撞变量:在一特定路径上,如果该路径的一个变量存在着两个或以上的母变量或祖先变量,则称该变量为该路径上的碰撞变量。如图 1中的路径A→B→
(3) 路径及其分类:① 有向路径和无向路径:只由多个同向单箭头组成的路径,称为有向路径。如图 1中A→B→
DAGs反映变量之间的因果效应,基本规则:
1.一条路径上所包含的变量只能出现1次,并且不能以其自身作为祖先变量或母变量,即一条路径上不能出现回环,如图 2-9中的路径E→D→A9→E中的E;
2.多个同向单箭头(有向路径)显示变量间存在着连续的因果效应,仅有向路径刻画这种关系;
3.相邻变量(互为母子关系)总是有向连接,因此这两个变量总是存在依赖性;
4.对于开放路径,通常表明,该路径上的某些变量之间存在关联,这种特征称为有向联接(directed connection)。所有的有偏路径,如混杂路径,都是开放路径;但开放路径不全是有偏路径,如有向路径是提供因果效应的病因路径;
5.对于关闭路径,碰撞变量两侧的变量之间无条件独立的,这种特征成为有向分离(directed separation);这种独立性可表现在紧邻碰撞变量两侧的无符号连接的两个变量之间,也可表现在远离碰撞变量两侧的无符号连接的两个变量之间。
三、DAGs干扰变量1.干扰变量DAGs的9种基本结构:由于客观世界的复杂性,E→D所表述的因果效应(如E为病因,D是E的效应,为不可再发的非传染性事件),将不可避免受到第三个或更多因素(如干扰变量/向量A)的影响,这是因果效应研究无法回避的常态现象。
根据干扰因素A与E和D的关系,以DAGs表示,将出现以下9种基本结构(图 2):
(1) A1是独立变量:A1与E或D均无箭头联结,说明A1不影响E或D,E-D的边际关联即可反映E-D的因果效应。因此,在分析时,无需调整A1;如调整A1,则调整的E-D关联仍然等于边际关联,但调整的E-D关联比边际关联的方差大。研究中诸如姓名、流水号及其他无关变量等。
(2) A2是工具变量:A2是E的病因,并只通过E影响D,因此,A2具有工具性(instrumentality),为工具变量(instrumental variable)[5-6]。E-D边际关联可反映E-D效应。因此,在分析时,没有必要调整A2;如调整A2,则调整的E-D关联仍然等于边际关联,但调整的E-D关联比边际关联的方差大。例如,乙醛脱氢酶2(aldehyde dehydrogenase 2,ALDH2)催化酒精的初次代谢产物-乙醛,而起到分解酒精的作用;编码ALDH2的基因多态影响酒精摄入,从而建立ALDH2基因多态作为研究饮酒与健康关系的工具变量[7]。
(3) A3是暴露E的效应变量:A3与D同是E的效应。E-D边际关联可反映E-D效应。没有必要调整A3;如调整A3,则调整的E-D关联仍等于边际关联,但调整的E-D关联比边际关联的方差大。
(4) A4是效应修饰变量:A4与E同是D的病因,因此,A4为E-D效应修饰变量(effect modifier)[4, 8]。单独的E-D边际关联不能正确反映E-D效应,E-D效应估计需要同时考虑到A4对其的效应修饰作用。调整A4将导致效应修饰偏倚(effect modification bias)[4]。
(5) A5是碰撞变量(单路径):如果存在E→D,即E-D为非零效应,则E通过D对A5产生效应,则称A5为单路径碰撞变量(Collider)[4, 8-9]。E-D边际关联可反映E-D效应。没有必要调整A5;如调整A5,将产生单路径碰撞偏倚(uni-path collider bias),影响E-D效应估计。这也有助于理解为何调整碰撞变量的子代(或后代)变量将引入偏倚。
(6) A6是混杂变量:A6既是E又是D的病因(共病因),为混杂的病因结构,A6为混杂变量(confounder)。E-D效应受到混杂路径E←A6→D的影响。因此,E-D边际关联不能正确反映E-D效应。必需调整A6,才能获得正确的E-D效应。
(7) A7是碰撞变量(双路径):A7既是E又是D的效应(共效应),即E和D共同碰撞于A7(E→A7←D为关闭路径),因此,E-D边际关联正确反映E-D效应。如调整A7,将产生双路径碰撞偏倚(bi-path collider bias)或选择性偏倚[10-12],干扰E-D效应的估计。在病例对照研究中,因病例被纳入研究的概率通常高于对照,因此D→A7一般都成立,如E→A7能成立,则该DAGs结构形成。这也解释了病例对照研究中选择性偏倚为何容易发生。
(8) A8是中间变量:E可通过A8对D产生影响,因此A8是中间变量(mediator)。E-D边际关联可反映E-D效应-总效应,包括直接效应(E→D)和间接效应(E→A7→D)。估计总效应时,没有必要调整A8;如估计直接效应,则需要调整A8。因此,A8是否调整,取决于研究目标是获得总效应、直接效应还是间接效应。如估计的效应与其病因路径不一致,则将产生病因通路偏倚(causal pathway bias)[4]。
(9) A9是反向效应的中间变量:对E-D效应进行研究,但D通过A9对E产生因果效应,从而产生循环路径。因此,A9作为中间变量而产生反向的因果效应。从时序关系上看,E显然处于2个不同时间点,可分别用E0和E1予以区别(类似于时间协变量),以图 3来表示,从而可不违背DAGs基本规则(见“DAGs基本规则”)。如在回忆偏倚中,E0为真实暴露,E1为测量的暴露,结局D通过中间变量A9影响暴露的测量E1。
![]() |
图 3 反向效应的中间变量 |
2. DAGs干扰变量调整规则:显然,对任一E-D因果关系的研究,其整体的病因图框架将全部由图 2所提供的8种基本结构组成;列出自E至D及其干扰因素的所有路径,从而可形成一个完整的E-D因果关系研究的DAGs。因此,建立这个完整的DAGs是E-D因果关系研究的关键。
在此基础上,需要区分:① 研究问题已明确(图 2-8),只需确定识别何种效应-总效应、直接效应还是间接效应;② 识别不影响E-D效应估计的关闭路径,予以排除;③ 识别非病因路径的开放路径,区分其中影响和不影响E-D效应估计的路径,确定最终用于调整的干扰因素,以获得正确的E-D效应估计。
如何处理干扰变量对E-D因果效应的估计?DAGs的规则如下:在E至D的路径上,调整干扰变量将切换其所在路径的开放或关闭特性:即当干扰变量为碰撞变量或碰撞变量的后代变量时,对其进行调整,将使得该路径从关闭转换为开放。如图 2-7中,E→A7←D本身为关闭路径,并不影响E-D效应估计,但在病例对照研究的实际中因A7仅为纳入研究的人群而成为带框变量,事实上形成调整,从而开放了这条通路而导致偏倚;如干扰变量不是碰撞变量时,对其进行调整,将使得该路径从开放变换为关闭。如图 2-6的混杂路径E←A6→D本身为开放路径,将影响E-D效应估计;调整A6将关闭这条路径,从而解释了为何混杂变量总是要进行调整。
同样道理,对从E-D的路径来说,当对一组变量A进行调整时,如果出现以下2种情形中的任何一种,则将使得从E-D的路径关闭:① 该路径存在非碰撞变量Z,并且Z被包含在A里面,那么该路径将在Z处关闭;② 该路径存在碰撞变量W,但该碰撞变量和其后代变量不被包含在A里面,那么该路径将在碰撞变量处关闭。
如果同时满足以下2种情形,则将使得从E-D的路径开放:① A不包含在该路径上的任何非碰撞变量,并且,② A包含在该路径上的任一碰撞变量或其后代变量。
四、DAGs的应用1.识别研究问题:提供建立的E-D效应估计的DAGs,识别干扰路径及其中的干扰变量,估计其是否可测量;否则,应在E-D研究前,优先需要解决是否存在偏倚?否则,应在整体的研究设计中整合适当的偏倚设计,以获得相应的偏倚参数,用于后续效应的定量偏倚分析[13]。
2.理解和指导研究设计及实施:DAGs帮助并加深了对多种设计的认识和理解,如传统观察性设计(横断面研究[9]、病例对照研究[4]和队列研究[9])、匹配设计[4, 14]、Meta分析[15]、准实验设计[16]等。
在研究设计阶段,可避免测量不必要的变量,从而达到简化研究的目的。提供研究人群选择上的思路,如病例对照研究设计本身已存在单变量碰撞结构(图 2-5);选择对照的时候,应采取适当策略使得对照选择独立于暴露;否则,暴露影响到研究对象是否纳入,即E→A5成立,则形成类似图 2-7的结构,而引起碰撞偏倚。
在混杂(图 2-6)控制上,依据DAGs可容易理解混杂控制策略的依据:① 打断混杂路径:常用策略如限制、匹配等,使得A6固定于某个值,而打断E←A6→D的路径;② 外部干预:通过外部变量Z对E的干预,当Z可完全决定E,则形成了随机对照试验设计;当Z不完全决定E,则形成了工具变量设计及孟德尔随机化设计(mendelian randomization design)[17](图 4)。
![]() |
图 4 外部干预对E-D效应估计 |
3.指导数据分析:在DAGs的指导下,围绕E-D效应及其所有路径,确定拟进行调整的干扰变量充分子集,以正确进行效应估计。向韧等[18]对如何应用DAGs以实现对混杂因素最小子集的获取、具体步骤及优缺点等进行了详尽的介绍。
在资料分析阶段,避免加入不必要变量的调整,如图 2-1,2,3[19-20];或调整不应调整的变量,如图 2-7中的A7,导致在分析阶段中人为地引入选择性偏倚,影响E-D效应估计[19-20];需要考虑效应修饰变量的影响(图 2-4);评估变量之间的共线性等[21]。
选择合适的统计分析策略,如图 5,可通过分别估计无偏的E→M和调整E的M→D,以实现绕过A6所致的混杂效应,实现E-D效应的正确估计,形成了中间变量的分析方法[22-24]。
![]() |
图 5 中间变量分析法正确估计E-D效应 |
4.偏倚的理解及结构分类:目前已识别的各类偏倚达上百种[25],常常令人困惑并且难以掌握[26]。依据DAGs,Shahar和Shahar[4]将众多的偏倚归结为三对(6种)对立的偏倚,即混杂偏倚和选择性偏倚、效应修饰偏倚和病因通路偏倚、信息偏倚和思维偏倚(thought bias)。这种分类对偏倚的正确认识和理解非常高效。
5.其他应用:此外,DAGs可用于评估模型的忠实性(faithfulness)或稳定性(Stability)[27]、效应的可折叠性(Collapsibility)[28]、研究人群的可交换性[29]等。
DAGs刻画了客观世界已明确的和待研究的因果效应的定性关系,是对整个研究设计及其实施过程的预演,有助于理清病因假设的基础、合理性和可行性,对可能存在的问题进行预判,有助于提出针对性的解决方案,同时也有助于提出新的研究假设。因此,DAGs对因果关系研究具有重要的指导价值。
[1] | Judea P. Causality:Models, Reasoning, and Inference[M].Cambridge University Press, 2009:1-102. |
[2] | Greenland S, Brumback B. An overview of relations among causal modelling methods[J]. Int J Epidemiol, 2002, 31(5): 1030–1037. DOI:10.1093/ije/31.5.1030 |
[3] | Pearl J. An introduction to causal inference[J]. Int J Biostat, 2010, 6(2): Article 7. DOI:10.2202/1557-4679.1203 |
[4] | Shahar E, Shahar DJ. Causal diagrams and the logic of matched case-control studies[J]. Clin Epidemiol, 2012, 4: 137–144. DOI:10.2147/CLEP.S31271 |
[5] | Hernan MA, Robins JM. Instruments for causal inference:an epidemiologist's dream?[J]. Epidemiology, 2006, 17(4): 360–372. DOI:10.1097/01.ede.0000222409.00878.37 |
[6] | Greenland S. An introduction To instrumental variables for epidemiologists[J]. Int J Epidemiol, 2000, 29(6): 1102. DOI:10.1093/oxfordjournals.ije.a019909 |
[7] | Au Yeung SL, Jiang C, Cheng KK, et al. Is aldehyde dehydrogenase 2 a credible genetic instrument for alcohol use in Mendelian randomization analysis in Southern Chinese men?[J]. Int J Epidemiol, 2013, 42(1): 318–328. DOI:10.1093/ije/dys221 |
[8] | Shahar E, Shahar DJ. On the definition of effect modification[J]. Epidemiology, 2010, 21(4): 587. DOI:10.1097/EDE.0b013e3181e0995c |
[9] | Shahar E, Shahar DJ. Causal diagrams and the cross-sectional study[J]. Clin Epidemiol, 2013, 5: 57–65. DOI:10.2147/CLEP.S42843 |
[10] | Hernan MA, Hernandez-Diaz S, Robins JM. A structural approach to selection bias[J]. Epidemiology, 2004, 15(5): 615–625. DOI:10.1097/01.ede.0000135174.63482.43 |
[11] | Snoep JD, Morabia A, Hernandez-Diaz S, et al. Commentary:A structural approach to Berkson's fallacy and a guide to a history of opinions about it[J]. Int J Epidemiol, 2014, 43(2): 515–521. DOI:10.1093/ije/dyu026 |
[12] | Pearce N, Richiardi L. Commentary:Three worlds collide:Berkson's bias, selection bias and collider bias[J]. Int J Epidemiol, 2014, 43(2): 521–524. DOI:10.1093/ije/dyu025 |
[13] | Lash TL, Fox MP, Fink AK.Applying quantitative bias analysis to epidemiologic data[M]. New York: Springer Science+Business Media, 2009: 13–32. |
[14] | Mansournia MA, Hernan MA, Greenland S. Matched designs and causal diagrams[J]. Int J Epidemiol, 2013, 42(3): 860–869. DOI:10.1093/ije/dyt083 |
[15] | Shrier I. Structural approach to bias in Meta-analyses[J]. Res Synth Methods, 2011, 2(4): 223–237. DOI:10.1002/jrsm.52 |
[16] | Steiner PM, Kim Y, Hall CE, et al. Graphical models for quasi-experimental designs[J]. Sociol Methods Res, 2015, 46(2): 0049124115582272. DOI:10.1177/0049124115582272 |
[17] | Bowden J, Davey SG, Haycock PC, et al. Consistent estimation in mendelian randomization with some invalid instruments using a weighted median estimator[J]. Genet Epidemiol, 2016, 40(4): 304–314. DOI:10.1002/gepi.21965 |
[18] |
向韧, 戴文杰, 熊元, 等.
有向无环图在因果推断控制混杂因素中的应用[J]. 中华流行病学杂志, 2016, 37(7): 1035–1038.
Xiang R, Dai WJ, Xiong Y, et al. Application of directed acyclic graphs in control of confounding[J]. Chin J Epidemiol, 2016, 37(7): 1035–1038. DOI:10.3760/cma.j.issn.0254-6450.2016.07.025 |
[19] | VanderWeele TJ. On the relative nature of overadjustment and unnecessary adjustment[J]. Epidemiology, 2009, 20(4): 496–499. DOI:10.1097/EDE.0b013e3181a82f12 |
[20] | Schisterman EF, Cole SR, Platt RW. Overadjustment bias and unnecessary adjustment in epidemiologic studies[J]. Epidemiology, 2009, 20(4): 488–495. DOI:10.1097/EDE.0b013e3181a819a1 |
[21] | Schisterman EF, Perkins NJ, Mumford SL, et al. Collinearity and causal diagrams:a lesson on the importance of model specification[J]. Epidemiology, 2017, 28(1): 47–53. DOI:10.1097/EDE.zhlxbxzz-38-8-114000554 |
[22] | VanderWeele TJ. Mediation and mechanism[J]. Eur J Epidemiol, 2009, 24(5): 217–224. DOI:10.1007/s10654-009-9331-1 |
[23] | Hafeman DM. A sufficient cause based approach to the assessment of mediation[J]. Eur J Epidemiol, 2008, 23(11): 711–721. DOI:10.1007/s10654-008-9286-7 |
[24] | de Stavola BL, Daniel RM, Ploubidis GB, et al. Mediation analysis with intermediate confounding:structural equation modeling viewed through the causal inference lens[J]. Am J Epidemiol, 2015, 181(1): 64–80. DOI:10.1093/aje/kwu239 |
[25] | Delgado-Rodríguez M, Llorca J. Bias[J]. J Epidemiol Community Health, 2004, 58(8): 635–641. DOI:10.1136/jech.2003.008466 |
[26] | Schwartz S, Campbell UB, Gatto NM, et al. Toward a clarification of the taxonomy of "bias" in epidemiology textbooks[J]. Epidemiology, 2015, 26(2): 216–222. DOI:10.1097/EDE.zhlxbxzz-38-8-114000224 |
[27] | Greenland S, Mansournia MA. Limitations of individual causal models, causal graphs, and ignorability assumptions, as illustrated by random confounding and design unfaithfulness[J]. Eur J Epidemiol, 2015, 30(10): 1101–1110. DOI:10.1007/s10654-015-9995-7 |
[28] | Mansournia MA, Greenland S. The relation of collapsibility and confounding to faithfulness and stability[J]. Epidemiology, 2015, 26(4): 466–472. DOI:10.1097/EDE.zhlxbxzz-38-8-114000291 |
[29] | Flanders WD, Eldridge RC. Summary of relationships between exchangeability, biasing paths and bias[J]. Eur J Epidemiol, 2015, 30(10): 1089–1099. DOI:10.1007/s10654-014-9915-2 |