文章信息
- 于洋, 仇沁晓, 尤东方, 赵杨.
- Yu Yang, Qiu Qinxiao, You Dongfang, Zhao Yang
- 多重并行中介分析方法的比较研究
- A comparative study of multiple parallel mediation analysis methods
- 中华流行病学杂志, 2022, 43(5): 739-746
- Chinese Journal of Epidemiology, 2022, 43(5): 739-746
- http://dx.doi.org/10.3760/cma.j.cn112338-20211022-00814
-
文章历史
收稿日期: 2021-10-22
2. 南京医科大学生物医学大数据重点实验室/肿瘤个体化医学协同创新中心,南京 211166
2. Key Laboratory of Biomedical Big Data/Cancer Individualized Medicine Collaborative Innovation Center, Nanjing Medical University, Nanjing 211166, China
在心理学、经济学、医学等众多领域中,研究者常常需要探讨各种变量之间的关系。自变量除了对因变量直接作用外,也有可能通过一个中间变量间接地对因变量产生作用。这个中间变量被称为中介变量,对应的两种作用分别称为直接效应和间接效应。中介分析的目的主要就是探索自变量X与因变量Y之间的因果关系机制,将自变量X与因变量Y之间的因果路径进行分解,判断中介变量在其因果路径中如何起作用。Baron和Kenny[1]首先对简单中介分析模型基于线性回归分析的方法提出了直接和间接效应的参数估计和假设检验方法。自1992年Robins和Greenland[2]基于反事实框架下提出了因果中介效应的定义后,中介分析研究有了很大的发展[3-4]。
传统的中介分析往往只考虑一个中介因素。近年来,研究者们越来越多地关注于探索自变量与因变量之间存在多个中介变量的情形[5-6]。这类中介模型被称为多重中介模型(multiple mediation model)。例如,有研究表明患者的文化因素与30 d再入院间的关联是通过出院实践和护理过渡中介介导的[7]。在该研究中,研究者对并行中介和顺序中介进行了联合中介分析。又如,在探讨母亲超重和子代超重之间的关联时,对出生方式和肠道菌群进行了顺序中介分析。研究发现母亲超重会通过影响出生方式,继而影响肠道菌群,最终影响子代超重的结局[8]。
本文将介绍多重并行中介分析的4种常用方法,即纯回归法、逆概率加权法、扩展的自然效应模型和基于权重的填补法;在并行中介的情形下,通过模拟研究比较4种方法在不同的情境下,估计直接效应和间接效应的表现。再将这4种方法应用于英国生物样本库(UK Biobank)数据库中水果摄入与心血管疾病关联的中介研究,以了解其实际应用中的表现。最后对这4种多重并行中介分析方法的适用情境以及各自的优缺点进行总结与讨论。
一、基本原理多重中介效应分析方法:多重中介分析旨在探究自变量通过多个不同中介变量对因变量产生作用的机制。根据多个中介变量在自变量和因变量间起作用的方式不同,多重中介效应又分为并行和顺序多重中介效应。前者是指多个中介变量同时在自变量和因变量间起作用;而后者指多个中介变量间出现顺序性特征,在自变量和因变量间形成中介链[9-11]。多重中介模型相对于简单中介模型不仅可以得到总的中介效应,还可以研究每个中介的特定中介效应或特定路径效应。
在反事实框架下,假设有多个感兴趣的中介,
1. 纯回归法:在反事实框架下,Vanderweele和Vansteelandt[12]将简单中介模型下Baron和Kenny[1]提出的乘积法推广到具有多个中介变量的模型中,建立新的多重中介变量模型。涉及模型包括Y模型(结局对暴露、所有中介变量和混杂因素的模型)和M模型(各中介变量对暴露和混杂因素的模型)。例如,在并行中介情形下,当结局和中介变量是连续型变量时,模型可表示为:
其中,A表示暴露变量,M表示中介变量,C表示协变量,K为中介变量的个数。
NDE可表示为
纯回归法也可用于顺序中介的情形。
2. 逆概率加权法:该方法对顺序和并行中介类型不做假设。其核心思想是,通过建立A模型(暴露对混杂因素的模型)和M模型(各中介变量对暴露和混杂因素的模型),得到每个个体i的权重
再通过纯回归法建立结局Y关于暴露、所有中介变量和协变量的模型,同时赋予相应的权重。从而估计NDE为
3. 扩展的自然效应模型:Lange等[13]将简单中介模型下的自然效应模型法扩展到了具有多个并行中介变量的情形中[15]。该方法的基本原理:首先根据原始数据集建立暴露和各中介的回归模型;再引入辅助变量A1,…,AK,重复原始数据2K次,构建一个扩展数据集,并计算每一行的权重;最后拟合结局的回归模型(只包含A,A1,…,AK),并加权,以估计特定路径的间接效应。具体估计步骤:①首先利用原始数据集,以混杂因素为条件,估计暴露的合适模型;②再利用原始数据集,以暴露和混杂为条件,对每个中介变量估计一个合适的模型;③假设在以暴露和混杂为条件的情况下,各中介间相互独立。引入新变量A1,…,AK为辅助暴露变量,重复原始数据的每一条观测2K次,构建一个扩展数据集。以二元暴露、两个中介为例,则每个观测被重复22=4次。先让A1取值1,再取值0,将原始数据集重复两次;接下来,该数据集再重复两次,这次让A2先取值1,再取值0,得到的扩展数据集见表 1。存在K个中介,该过程就重复K次,从而得到最终扩展数据集;④计算权重
4. 基于权重的填补法:Steen等[16]将Vansteelandt等[17]提出的针对单个中介变量的基于权重的填补法扩展到存在多个顺序中介变量的情形,为多个中介变量拟合自然效应模型。该方法可以处理多个不同类型的中介变量以及不同类型的结局的情形。其核心思想是,对反事实结局拟合一个只包含辅助变量(a,a',a″)的回归模型,并进行加权。权重的选择依赖于中介模型的选择。现以一个二分类暴露和两个顺序中介为例,具体估计步骤:①为第一个中介变量拟合一个合适的模型,以
1. 目的:本研究在不同模拟情形下模拟包含一个暴露变量A、两个中介变量M1、M2、一个二分类结局Y和两个协变量C1、C2的数据,计算并比较上述4种多重并行中介分析方法在估计中介效应方面的性能,为研究者选择合适的中介分析方法提供建议。
2. 模拟研究方案:本研究参考已有的模拟研究[17-19],设置两个二分类协变量
3. 模拟研究结果:模拟实验各样本量下结论基本一致,以下介绍样本量为1 000时的结果。
(1)模拟情境一:当两个中介变量为连续型变量时,4种方法中纯回归法估计直接效应的平均相对偏倚最小,基于权重的填补法估计的平均相对偏倚最大。而当两个中介变量均为二分类变量时,4种方法中逆概率加权法估计直接效应的平均相对偏倚最小,基于权重的填补法估计的平均相对偏倚最大。见表 4,5。
在估计间接效应时,不论中介变量为连续型变量或是二分类变量,4种方法中均是纯回归法对间接效应估计的偏倚最小,基于权重的填补法估计的偏倚最大。
虽然基于权重的填补法在连续型中介情形下估计中介效应的偏倚小于二分类中介的情形,但是估计的偏倚均较大(> 110%);95%CI覆盖真实值的概率为0,检验效能为100%。
当中介为二分类变量时,扩展的自然效应模型估计直接效应的偏倚小于中介为连续型变量时的估计偏倚,但对两个间接效应的估计偏倚明显大于中介为连续型变量时的估计。
(2)模拟情境二:在不同的中介相关性下,基于权重的填补法与扩展的自然效应模型相比于纯回归法和逆概率加权法,对各个效应的估计偏倚更大。且基于权重的填补法和扩展的自然效应模型的偏倚和相关系数有关。
(3)模拟情境三:在两个中介效应差不同的情形下,相比于纯回归法和逆概率加权法而言,基于权重的填补法和扩展的自然效应模型对各效应的估计偏倚均较大。但是在估计中介效应时,当不存在中介效应(IE=1)时,基于权重的填补法和扩展的自然效应模型对其估计偏倚较小。见图 2。
三、实例应用UK Biobank是一项前瞻性队列研究,旨在调查一系列疾病的遗传因素、生活方式和环境因素[20-22]。该研究共招募了502 656名年龄在40~69岁的受试者[23-24]。
既往研究表明,较高的水果摄入量与较低的心血管疾病风险有关[25-27]。而水果的摄入很大程度上也会影响血糖、血脂等血生化指标[25, 28-29]。因此,本研究利用UK Biobank数据,除了研究水果摄入对心血管疾病风险的直接效应外,还探索了两个中介变量血糖和胆固醇是否在其因果路径中起作用以及中介效应的大小。本实例中暴露为新鲜水果摄入(二分类变量),结局为心血管疾病患病(二分类变量),两个并行中介变量血糖和胆固醇均为连续型变量。采用上述4种多重并行中介分析方法分别估计水果摄入对心血管疾病的直接效应、通过影响血糖水平而产生的间接效应以及通过影响胆固醇水平而产生的间接效应,同时调整年龄、性别、文化程度、经济水平、区域、饮酒、吸烟、运动和BMI等人口学特征变量。所有分析采用R 3.6.3软件进行。
除基于权重的填补法外,纯回归法、逆概率加权法以及扩展的自然效应模型估计的结果近似,即水果摄入与心血管疾病的风险降低有关,直接效应的大小分别为0.685(95%CI:0.569~0.823)、0.654(95%CI:0.531~0.805)、0.677(95%CI:0.571~0.803)。此外,水果摄入可能会通过提高胆固醇水平而增加患心血管疾病的风险,纯回归法、逆概率加权法和扩展的自然效应模型估计的胆固醇间接效应分别为1.017(95%CI:1.009~1.025)、1.020(95%CI:1.005~1.035)和1.016(95%CI:1.009~1.024),但这3种方法估计的血糖间接效应没有统计学意义。而基于权重的填补法相比于另外3种方法的结果相差较大,不仅识别不出水果摄入的直接效应(OR=1.000)和胆固醇的间接效应(OR=1.000),还表明水果摄入可能会通过影响血糖水平而降低心血管疾病的风险(OR=0.998,95%CI:0.997~0.999)。见表 6。
四、讨论多重中介分析研究的是自变量与因变量之间存在多个中介变量的情形。本文介绍了4种多重并行中介分析方法,即纯回归法、逆概率加权法、扩展的自然效应模型和基于权重的填补法,针对并行中介的情形,通过模拟实验比较了4种方法在不同的情境下,估计直接效应和间接效应的表现。
模拟结果表明,纯回归法在两个中介变量为连续型变量时的表现优于两个二分类中介的情形,而逆概率加权法在两个中介变量为二分类变量时的表现优于两个连续型中介的情形,因此纯回归法推荐用于中介变量为连续型变量的情形,逆概率加权法推荐用于中介变量为二分类变量的情形。扩展的自然效应模型在两个二分类中介时估计直接效应的偏倚小于间接效应的估计偏倚,而在两个连续型中介时结果相反。而基于权重的填补法在不同的中介变量类型下对效应的估计偏倚均较大。
在两个并行中介均为连续型变量的设定下,两个中介变量间残差的相关性对纯回归法、逆概率加权法估计各效应的影响都不大,即纯回归法和逆概率加权法对各效应的估计偏倚都较小。基于权重的填补法对各效应的估计偏倚都较大。但当两个中介变量间的残差呈正相关时,扩展的自然效应模型估计间接效应的偏倚较小,当两个中介变量间残差的相关程度较小时,扩展的自然效应模型估计直接效应的偏倚较小。因而扩展的自然效应模型在用于两个并行中介的残差呈正相关且相关程度较小时更佳。
在不同的中介效应设置下,当中介效应 < 1时,纯回归法和逆概率加权法的估计偏倚较小。基于权重的填补法仅在中介效应不存在(IE1/2=1)时估计偏倚较小,而在其他情形下对各效应的估计偏倚相比于其他3种方法均较大。这可能是由于该方法最初是针对顺序中介的情形提出的[16],而本文将其用于两个并行中介的情形,因而可能存在较大的估计偏倚。提示在进行多重中介分析时,基于权重的填补法并不适用于并行中介的情形,研究者应当慎重选择分析方法。
虽然扩展的自然效应模型是用于多个并行中介的情形,但它要求中介变量间相互独立[13]。本研究的模拟实验中,也观察到扩展的自然效应模型在两个中介变量残差的相关程度较弱时表现相对较好。这提示研究者在进行多重并行中介分析时应当认真考虑中介变量间相关性的影响。
当中介变量为连续型变量时,可选用纯回归法;当中介变量为二分类变量时,可选用逆概率加权法。在中介间残差不同相关性的情形下,纯回归法和逆概率加权法表现不相上下,两种方法均可选用。由于扩展的自然效应模型直接参数化了直接效应和间接效应,因而若是出于效应估计的简便性,在两个并行中介的残差呈正相关且相关程度较小时可以考虑该方法。在并行中介的情形下,只有当中介效应不存在(IE1/2=1)时,选用扩展的自然效应模型是优于纯回归法和逆概率加权法的,其他中介效应的情形依旧是选用纯回归法和逆概率加权法更佳。因而,可以针对同一实际数据采用几种不同的分析方法以考察结果的稳健性。基于权重的填补法可能更适用于顺序中介变量的情形[16]。
本文存在局限性。首先,本研究的模拟情形不够全面。例如,在考虑不同的中介变量类型时,两个中介变量分别为连续型变量和二分类变量的组合情形尚未考虑;在考虑两个中介变量残差间不同的相关性时,中介变量为二分类时的相关性也尚未考虑。其次,为了模型和分析的简便性,在整个研究中没有考虑交互作用,包括中介间的交互以及暴露与中介间的交互。在后续研究中,一方面笔者将考虑弥补上述不足,另一方面将考虑可以将本研究拓展到更多中介变量以及存在顺序中介变量的情形。
利益冲突 所有作者声明无利益冲突
作者贡献声明 于洋:统计分析、论文撰写;仇沁晓、尤东方、赵杨:研究指导、论文修改、经费支持
[1] |
Baron RM, Kenny DA. The moderator-mediator variable distinction in social psychological research: conceptual, strategic, and statistical considerations[J]. J Pers Soc Psychol, 1986, 51(6): 1173-1182. DOI:10.1037/0022-3514.51.6.1173 |
[2] |
Robins JM, Greenland S. Identifiability and exchangeability for direct and indirect effects[J]. Epidemiology, 1992, 3(2): 143-155. DOI:10.1097/00001648-199203000-00013 |
[3] |
Imai K, Keele L, Tingley D. A general approach to causal mediation analysis[J]. Psychol Methods, 2010, 15(4): 309-334. DOI:10.1037/a0020761 |
[4] |
Vanderweele TJ, Vansteelandt S. Odds ratios for mediation analysis for a dichotomous outcome[J]. Am J Epidemiol, 2010, 172(12): 1339-1348. DOI:10.1093/aje/kwq332 |
[5] |
Jérolon A, Baglietto L, Birmelé E, et al. Causal mediation analysis in presence of multiple mediators uncausally related[J]. Int J Biostat, 2020, 17(2): 191-221. DOI:10.1515/ijb-2019-0088 |
[6] |
Lai EY, Shih S, Huang YT, et al. A mediation analysis for a nonrare dichotomous outcome with sequentially ordered multiple mediators[J]. Stat Med, 2020, 39(10): 1415-1428. DOI:10.1002/sim.8485 |
[7] |
Rayan-Gharra N, Balicer RD, Tadmor B, et al. Association between cultural factors and readmissions: the mediating effect of hospital discharge practices and care-transition preparedness[J]. BMJ Qual Saf, 2019, 28(11): 866-874. DOI:10.1136/bmjqs-2019-009317 |
[8] |
Tun HM, Bridgman SL, Chari R, et al. Roles of birth mode and infant gut Microbiota in intergenerational transmission of overweight and obesity from mother to offspring[J]. JAMA Pediatr, 2018, 172(4): 368-377. DOI:10.1001/jamapediatrics.2017.5535 |
[9] |
Hayes AF. Beyond baron and Kenny: statistical mediation analysis in the new millennium[J]. Commun Monogra, 2009, 76(4): 408-420. DOI:10.1080/03637750903310360 |
[10] |
MaCkinnon DP. Introduction to statistical mediation analysis[M]. New York: Lawrence Erlbaum Associates, 2008.
|
[11] |
Preacher KJ, Hayes AF. Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models[J]. Behav Res Methods, 2008, 40(3): 879-891. DOI:10.3758/BRM.40.3.879 |
[12] |
Vanderweele T, Vansteelandt S. Mediation analysis with multiple mediators[J]. Epidemiol Methods, 2014, 2(1): 95-115. DOI:10.1515/em-2012-0010 |
[13] |
Lange T, Rasmussen M, Thygesen LC. Assessing natural direct and indirect effects through multiple pathways[J]. Am J Epidemiol, 2014, 179(4): 513-518. DOI:10.1093/aje/kwt270 |
[14] |
Taguri M, Featherstone J, Cheng J. Causal mediation analysis with multiple causally non-ordered mediators[J]. Stat Methods Med Res, 2018, 27(1): 3-19. DOI:10.1177/0962280215615899 |
[15] |
Lange T, Vansteelandt S, Bekaert M. A simple unified approach for estimating natural direct and indirect effects[J]. Am J Epidemiol, 2012, 176(3): 190-195. DOI:10.1093/aje/kwr525 |
[16] |
Steen J, Loeys T, Moerkerke B, et al. Flexible mediation analysis with multiple mediators[J]. Am J Epidemiol, 2017, 186(2): 184-193. DOI:10.1093/aje/kwx051 |
[17] |
Vansteelandt S, Bekaert M, Lange T. Imputation strategies for the estimation of natural direct and indirect effects[J]. Epidemiol Methods, 2012, 1(1): 131-158. DOI:10.1515/2161-962X.1014 |
[18] |
Wang W, Nelson S, Albert JM. Estimation of causal mediation effects for a dichotomous outcome in multiple-mediator models using the mediation formula[J]. Stat Med, 2013, 32(24): 4211-4228. DOI:10.1002/sim.5830 |
[19] |
Nguyen TQ, Webb-Vargas Y, Koning IM, et al. Causal mediation analysis with a binary outcome and multiple continuous or ordinal mediators: simulations and application to an alcohol intervention[J]. Struct Equ Modeling, 2016, 23(3): 368-383. DOI:10.1080/10705511.2015.1062730 |
[20] |
Allen N, Sudlow C, Downey P, et al. UK Biobank: current status and what it means for epidemiology[J]. Health Policy Technol, 2012, 1(3): 123-126. DOI:10.1016/j.hlpt.2012.07.003 |
[21] |
Manolio TA, Bailey-Wilson JE, Collins FS. Genes, environment and the value of prospective cohort studies[J]. Nat Rev Genet, 2006, 7(10): 812-820. DOI:10.1038/nrg1919 |
[22] |
Palmer LJ. UK Biobank: bank on it[J]. Lancet, 2007, 369(9578): 1980-1982. DOI:10.1016/S0140-6736(07)60924 |
[23] |
Allen NE, Sudlow C, Peakman T, et al. UK biobank data: come and get it[J]. Sci Transl Med, 2014, 6(224): 224ed4. DOI:10.1126/scitranslmed.3008601 |
[24] |
Sudlow C, Gallacher J, Allen N, et al. UK biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age[J]. PLoS Med, 2015, 12(3): e1001779. DOI:10.1371/journal.pmed.1001779 |
[25] |
Du HD, Li LM, Bennett D, et al. Fresh fruit consumption and major cardiovascular disease in China[J]. N Engl J Med, 2016, 374(14): 1332-1343. DOI:10.1056/NEJMoa1501451 |
[26] |
Wang J, Liu FC, Li JX, et al. Fruit and vegetable consumption, cardiovascular disease, and all-cause mortality in China[J]. Sci China Life Sci, 2022, 65(1): 119-128. DOI:10.1007/s11427-020-1896-x |
[27] |
Zurbau A, Au-Yeung F, Mejia SB, et al. Relation of different fruit and vegetable sources with incident cardiovascular outcomes: a systematic review and meta-analysis of prospective cohort studies[J]. J Am Heart Assoc, 2020, 9(19): e017728. DOI:10.1161/JAHA.120.017728 |
[28] |
Bragg F, Li LM, Bennett D, et al. Association of random plasma glucose levels with the risk for cardiovascular disease among Chinese adults without known diabetes[J]. JAMA Cardiol, 2016, 1(7): 813-823. DOI:10.1001/jamacardio.2016.1702 |
[29] |
Jiang ZL, Sun TY, He Y, et al. Dietary fruit and vegetable intake, gut microbiota, and type 2 diabetes: results from two large human cohort studies[J]. BMC Med, 2020, 18(1): 371. DOI:10.1186/s12916-020-01842-0 |