中华流行病学杂志  2014, Vol. 35 Issue (10): 1169-1171   PDF    
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2014.10.021
中华医学会主办。
0

文章信息

刘慧鑫, 苏迎盈, 李峥, 汪宁. 2014.
Liu Huixin, Su Yingying, Li Zheng, Wang Ning.. 2014.
队列研究中的依时混杂偏倚和随访时间偏倚
Time-dependent confounding bias and follow-up duration time bias in cohort studies
中华流行病学杂志, 2014, 35(10): 1169-1171
Chinese Journal of Epidemiology, 2014, 35(10): 1169-1171
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2014.10.021

文章历史

投稿日期:2014-5-13
队列研究中的依时混杂偏倚和随访时间偏倚
刘慧鑫, 苏迎盈, 李峥, 汪宁     
102206 北京, 中国疾病预防控制中心性病艾滋病预防控制中心
导读:未加识别或控制的混杂因素和偏倚会影响流行病学研究中因果关系的准确判断。目前已熟知队列研究中可能出现的选择偏倚及失访偏倚,为此笔者复习了队列研究中可能存在的依时混杂偏倚及其控制方法,并通过实例提出随访时间偏倚的概念及其控制方法。
关键词队列研究     依时混杂偏倚     随访时间偏倚     流行病学    
Time-dependent confounding bias and follow-up duration time bias in cohort studies
Liu Huixin, Su Yingying, Li Zheng, Wang Ning     
National Center for AIDS/STD Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Key words: Cohort study     Time-dependent confounding bias     Follow-up duration and time bias     Epidemiology    

流行病学是研究因果关系推断的学科,由于存在未识别、控制的偏倚,常导致无法准确估计暴露与研究结局之间的因果关系。在流行病学研究设计方法中,队列研究由于因果现象发生的时间顺序合理,可直接测量疾病相关危险因素指标(如相对危险度、归因危险度等),并减少与确定暴露相关的偏倚,被认为是研究暴露与研究结局关联的最佳设计类型[1]。对队列研究中可能存在的偏倚如选择偏倚、失访偏倚以及其偏倚的控制等已较为熟知,为此笔者将主要复习队列研究中可能出现的依时混杂偏倚、随访时间偏倚的概念,并描述两种偏倚的表现形式及控制方法。   1. 依时混杂偏倚及其控制   

(1)依时混杂因素:当一个协变量随时间变化而变化时,称该协变量为依时协变量(time-dependent covariate)。如果一个依时协变量,既是研究结局的一个影响因素,又与研究的暴露因素有关联,该依时协变量即为依时混杂因素(time-dependent confounder)[2, 3],而由依时混杂因素引起的偏倚则称为依时混杂偏倚。   

例如在研究抗病毒治疗(ART)对HIV感染者或AIDS患者(HIV/AIDS)生存影响中,协变量CD4+T淋巴细胞计数即是一个依时混杂因素。CD4+T淋巴细胞计数是一个随HIV/AIDS 病程进展而变化的指标,未施加如ART等干预手段时,CD4+T淋巴细胞计数会随着病程进展逐渐下降,同时CD4+T淋巴细胞计数又是临床判断是否开始ART的一项指示指标[4],当CD4+T淋巴细胞计数下降到一定值时,应建议开始进行ART。此时,如图 1 所示,ti 时点的CD4+T淋巴细胞计数影响ti 时点ART的使用情况(依时协变量与暴露因素相关);而ti 时点的CD4+T淋巴细胞计数又是HIV/AIDS 生存的一个影响因素(依时协变量是结局的影响因素)。这样,CD4+T淋巴细胞计数是ART对HIV/AIDS 生存影响研究中存在的一个依时混杂因素。   

(2)依时混杂偏倚控制:以上分析ART对HIV/AIDS 生存影响时,可能出现的偏倚:首先如果不对基线CD4+T淋巴细胞计数进行调整,直接粗略估计ART对生存的影响时可能会得到有偏的结果,因为暴露组(接受ART者)相对于未暴露组(未接受ART者)而言,死亡风险更高——ART组CD4+T淋巴细胞计数较低,更易发生机会性感染;其次,如对基线CD4+T淋巴细胞计数进行校正也会得到一个有偏的估计,因CD4+T淋巴细胞计数是一个变动值,不适宜将CD4+T淋巴细胞计数作为协变量直接纳入如Cox比例风险模型中进行调整,因为Cox比例风险模型要求其各个协变量的取值为常数,不随时间变化而变化;也不适宜调整或者分层分析研究开始时治疗组与未治疗组CD4+T淋巴细胞计数的构成比,因研究时未治疗组中的一些病例因CD4+T淋巴细胞水平降低 图 1 以ART对生存影响为例的依时混杂因素 而开始治疗,从而改变其原有的生存分布,导致有偏的估计;再则队列研究中的依时混杂因素可受先前暴露因素的影响。如图 1中ti时点上,考虑CD4+T淋巴细胞计数对ART及其生存的影响时,其为混杂因素,而ti+1 时点上考虑其受ART影响改善生存结局时,CD4+T淋巴细胞计数为ART与生存关系因果链上的一环,为此有学者称其为“受到先前暴露因素影响的依时混杂因素” [2, 3],如调整ti+1 时点上CD4+T淋巴细胞计数,则会损失ART通过提高CD4+T淋巴细胞计数影响生存结局的这条因果链,亦无法准确推断ART与生存之间的因果关系。

图 1 以ART对生存影响为例的依时混杂因素
  

在数据分析阶段通常采用分层分析、标准化率和多变量分析方法控制传统的混杂因素,当研究结局的某些影响因素为依时变量时,一般应用依时Cox模型进行分析,但当依时混杂因素存在,且受先前暴露因素影响时,Robins等[5]建议应用边缘结构Cox模型(marginal structural Cox models)或结构加速失效时间模型(structural accelerated failure time models)以控制依时混杂偏倚,从而准确估计当依时混杂偏倚存在时暴露与结局之间的因果效应[2, 6]。   

为了解上述两种结构模型的应用原理,应先理解“虚拟事实变量”(counterfactual variables 或potential-outcomes)。如果一名研究对象在时点t不接受干预处理(T0)或在时点t接受干预处理(T1),而实际研究中只能观察到研究对象接受一种处理结果,其中未观测到的处理结果则称为虚拟事实[3, 6]。传统Cox模型和加速失效时间(AFT)模型是对实际观测的生存结局/分布进行拟合,得出暴露与结局之间的相关关系,而结构Cox模型和结构AFT模型则引入虚拟事实变量:即假设一名研究对象i在时点t,除接受实际处理外,还接受与实际相反的处理,这样在时点t观测研究对象i接受处理与未接受处理结果的差异可准确判断暴露与结局的因果关系,从而解决了依时混杂因素造成的偏倚。   

结构模型拟合分为两步。首先估计每名研究对象接受实际处理的概率,从而进行反转概率权重(inverse probability weighting,IPW)或g-estimation估计;其次应用上述估计的权重,在回归模型中得出处理与结局间的相关关系,其中结构Cox模型权重估计采用IPW,结构AFT模型的权重估计采用g-estimation。虚拟事实变量(counterfactual variables)在经济学和社会学中常称为“structural”[7, 8],而结构模型正是对虚拟事实变量进行拟合,故以上两种模型被称为结构模型[2, 6, 9]。其STATA软件和SAS软件程序命令可参见http://www.hsph.harvard.edu/causal/software。此外,Gran等[10]提出一种连续Cox回归方法解决依时混杂偏倚,该方法较结构模型简单,其原理也是将观察性研究变为虚拟的随机试验以控制依时混杂因素,进行因果关系推断。  

 现实研究中存在由于未控制依时混杂偏倚而导致无法准确推断因果关系的实例,如Morrison等[11]2007年在AIDS杂志上发表了一篇荷尔蒙激素避孕药与HIV感染风险的论文,该研究中年龄即为一个依时混杂因素,当时研究结论是“口服避孕药(COC,HR=0.99,95%CI:0.69~1.42)或醋酸甲孕酮(DMPA,HR=1.25,95%CI:0.89~1.78)与HIV感染无关”。2010年Morrison等[12]应用边缘结构模型在控制了依时混杂偏倚后对2007年研究结果重新分析,发现“应用边缘结构模型调整权重后,DMAP使用与HIV感染有关(aHR=1.48,95%CI:1.02~2.15),COC使用与HIV感染无关(aHR= 1.19,95%CI:0.80~1.76)”。   2. 随访时间偏倚及其控制

队列研究中暴露组相对未暴露组的发病通常采用相对危险度(RR)或风险比(hazard ratio,HR)。2010年Hernan[13]撰文认为“报告HR时有两种风险,一是HR值可能随时间改变,另一种是HR值可能嵌入选择偏倚(built-in selection bias)”。笔者发现当RR/HR值随着随访时间变化时,可产生随访时间偏倚,此情况在流行病学研究中并不少见。本文将随访时间偏倚赋予两种定义:①随访时间直接影响平均RR/HR值,当研究者未发现HR值随时间而变化,且观察时间有限时,可能无法全面的评价暴露与结局间的关系,如图 2所示,随访至T3时点,得出的平均HR1-3与随访至T4时点得出的平均HR1-4不同,虽然HR1-3和HR1-4在预定的时间范围内推断的因果关系是真实的,但无法全面反映暴露与结局间的因果关系;②开始选取随访/观察的时间点也可对RR/HR值的估计产生偏倚,如图 2中T1时点开始随访至T3时点得到HR1-3,但如果从T2时点开始随访至T3时点即得到HR2-3,虽然HR1-3和HR2-3也在给定的时间内,但由于HR值随时间变化,HR1-3和HR2-3可能显示相反的暴露与结局之间的相关关系。

图 2 随访时间偏倚示意图
  

以2003年Manson 等[14]的研究报告为例说明随访时间偏倚。该研究为雌激素加黄体酮与女性冠心病发生风险的随机双盲临床实验,共纳入16 608名50~79岁绝经妇女,随机分为雌激素加黄体酮组和安慰剂组,观察结局为冠心病发生情况。平均随访5.2年后,得出“联合激素治疗与冠心病发生相关,HR=1.24,95%CI:1.00~1.54”[14]。文中对随访时间(年份)进行分层,报告每一随访年份的亚组HR值(表 1)。可见联合激素治疗组冠心病发病的HR值从随访第1年的1.81 降至随访第6年后的0.70。RR值(包括平均危险度及按年份分层的亚组危险度)会因随访时间的长短带来偏倚:如果随访时间≤1年,即HR=1.81(95%CI:1.09~3.01),虽然该结果是在观察时间内,但因为报告者无法预测HR值是否会随观察时间而变化,可能得出“联合激素治疗可增加冠心病发病风险”的结论,而实际是随着随访时间的延长,联合激素治疗组发生冠心病的相对风险下降。另一种偏倚近似于病例对照研究中可能存在的“幸存者偏倚”。即当一个队列研究观察的“暴露”发生于队列开始之前,由于“观察”较“暴露”滞后,进入队列均为尚未发生结局事件者,此时暴露组中未发生结局事件者与假设观察开始于暴露早期的暴露组对象发 图 2 随访时间偏倚示意图 生结局事件的风险不一致,也可导致暴露对结局事件发生因果关系的推断产生偏倚。如假设随访/观察从暴露的第6年开始,研究对象就是在第6年还未发生结局事件(冠心病)者,而相对于安慰剂组,联合激素治疗组第6年发生冠心病的RR值为0.70,即相对于暴露开始第1年的联合激素治疗组,暴露第6年的联合激素治疗组发生冠心病的相对发病风险较低,从而对联合激素治疗与冠心病发病的因果关系推断产生偏倚。笔者先前以计算艾滋病潜伏期为例[15],说明滞后诊断者对潜伏期计算结果可带来滞后诊断偏倚,这也是一种随访时间偏倚。此外,结局竞争偏倚也是一种随访时间偏倚。以研究吸烟与肺癌的关系为例,当患者因吸烟引起的其他疾病(如冠心病)死亡,观察时间如选择在吸烟者吸烟时间较长时,则可能导致因吸烟引起其他疾病死亡的暴露者无法入组,而影响研究结果。

表 1 雌激素加黄体酮组和安慰剂组的冠心病发生风险
(按随访年份分层)[14]
  

在研究设计阶段就应控制随访时间偏倚,如尽可能延长观察时间、应用新使用者设计[16](new-user designs)数据分析,通过比较暴露组与非暴露组的生存分布控制该偏倚,即使用AFT模型[6],但有流行病学家认为,不能因为存在这一情况,而不报告RR/HR值[13]。   

新使用者设计是药物流行病学研究方法,其随访时间开始于研究对象接受处理时点(T0),避免了接受一段时间处理的研究对象与刚接受处理的研究对象间可能存在的发病风险差异。   

AFT模型是一种生存分析模型,其观察结局为失效时间(即观察对象从开始暴露至发生结局的时间),由于Cox模型(可测量风险比)已被广泛使用,而AFT模型(可测量生存时间比)却较少使用,但如存在随访时间偏倚,建议使用AFT模型进行暴露组与非暴露组的生存分析。   

上述Manson 等[14] 的研究中除了报告总的调整HR值和按年份分层的HR值,还使用了Kaplan-Meier生存分布曲线描述联合激素治疗组与安慰剂组的冠心病发生情况,笔者认为如观察到HR值随时间变化时,应在结果中既报告研究时间内平均HR值、按时间分层的HR值,同时也要比较生存分布。   3. 结语

随着流行病学研究的不断发展,对控制偏倚重要性的认识也不断深入和变化[17]。本文对队列研究中可能存在的依时混杂偏倚和随访时间偏倚的表现形式和控制方法进行描述和讨论,旨在分析研究数据中控制这类偏倚。

参考文献
[1] Qin Y,Zhan SY,Li LM,et al. Review the history of cohort study in epidemiology[J]. Chin J Epidemiol,2004,25(5):449-451. (in Chinese) 秦颖,詹思延,李立明. 流行病学队列研究的历史回顾[J]. 中华流行病学杂志,2004,25(5):449-451.
[2] Robins JM,Hernan MA,Brumback B. Marginal structural models and causal inference in epidemiology[J]. Epidemiology,2000, 11:550-560.
[3] Zoe F,Hernan MA,Frederick W,et al. Controlling for timedependent confounding using marginal structural models[J]. Stat J,2004,4:402-420.
[4] Zhang FJ,Cao YZ,Zhao HX,et al. National free HIV antiretroviral treatment handbook[M]. 2nd. Beijing:People's Medical Publishing House,2008.(in Chinese) 张福杰,曹韵贞,赵红心,等. 国家免费艾滋病抗病毒药物治疗 手册[M]. 2 版. 北京:人民卫生出版社,2008.
[5] Robins JM,Blevins D,Ritter G,et al. G-estimation of the effect of prophylaxis therapy for Pneumocystis carinii pneumonia on the survival of AIDS patients[J]. Epidemiology,1992,3: 319-336.
[6] Hernan MA,Cole SR,Margolick J,et al. Structural accelerated failure time models for survival analysis in studies with timevarying treatments[J]. Pharmacoepidemiol Drug Saf,2005,14: 477-491.
[7] Pearl J. Causal diagrams for empirical research[J]. Biometrika, 1995,82:669-668.
[8] Robins JM. The analysis of randomized and nonrandomized AIDS treatment trials using a new approach to causal inference in longitudinal studies[M] //Sechrest L,Freeman H,Mulley A, eds. Health service research methodology:a focus on AIDS National Center for Health Services Research. US Public Health Service,1989:113-159.
[9] Young JG,Hernan MA,Picciotto S,et al. Relation between three classes of structural models for the effect of a time-varying exposure on survival[J]. Lifetime Data Anal,2010,16:71-84.
[10] Gran JM,Roysland K,Wolbers M,et al. A sequential Cox approach for estimating the causal effect of treatment in the presence of time-dependent confounding applied to data from the Swiss HIV Cohort Study[J]. Stat Med,2010,29:2757-2768.
[11] Morrison CS,Richardson BA,Mmiro F,et al. Hormonal contraception and the risk of HIV acquisition[J]. AIDS,2007,21:85-95.
[12] Morrison CS,Chen PL,Kwok C,et al. Hormonal contraception and HIV acquisition:reanalysis using marginal structural modeling[J]. AIDS,2010,24:1778-1781.
[13] Hernan MA. The hazards of hazard ratios[J]. Epidemiology, 2010,21:13-15.
[14] Manson JE,Hsia J,Johnson KC,et al. Estrogen plus progestin and the risk of coronary heart disease[J]. N Engl J Med,2003, 349:523-534.
[15] Liu HX,Wang L,Qin QQ,et al. Impact of delayed diagnoses bias on the estimation of AIDS incubation[J]. Chin J Epidemiol, 2011,32(9):892-895. (in Chinese) 刘慧鑫,王璐,秦倩倩,等. 滞后诊断偏倚对判断艾滋病潜伏期的影响[J]. 中华流行病学杂志,2011,32(9):892-895.
[16] Ray WA. Evaluating medication effects outside of clinical trials: new-user Designs[J]. Am J Epidemiol,2003,158:915-920.
[17] Ren T,Zhan SY,Shen X,et al. Bias and confounding in epidemiology study[J]. Chin J Epidemiol,2004,25(9):811- 813.(in Chinese) 任涛,詹思延,沈霞,等. 流行病学研究中的偏倚与混杂[J]. 中华流行病学杂志,2004,25(9):811-813.