病例对照研究设计进展

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.04.028
中华医学会主办。

文章信息

张斐斐, 刘志东, 张彩霞, 姜宝法.

Zhang Feifei, Liu Zhidong, Zhang Caixia, Jiang Baofa.

病例对照研究设计进展

Research progress on case-control study

中华流行病学杂志, 2016, 37(4): 578-581

Chinese Journal of Epidemiology, 2016, 37(4): 578-581

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.04.028

文章历史

收稿日期: 2015-09-28

引用本文

张斐斐, 刘志东, 张彩霞, 姜宝法. 病例对照研究设计进展[J]. 中华流行病学杂志, 2016, 37(4): 578-581 复制到剪切板

Zhang Feifei, Liu Zhidong, Zhang Caixia, Jiang Baofa. Research progress on case-control study[J]. Chinese Journal of Epidemiology, 2016, 37(4): 578-581. 复制到剪切板

病例对照研究设计进展

张斐斐, 刘志东, 张彩霞, 姜宝法

250012 济南, 山东大学公共卫生学院流行病学系

收稿日期: 2015-09-28

通信作者: 姜宝法, Email: bjiang@sdu.edu.cn

摘要: 近几十年来,病例对照研究衍生出了一些新的研究方法。本文对其中四种方法(二阶段设计、病例镜像研究、暴露交叉研究以及病例-病例-时间-对照研究)的基本原理、适用情况、优点及局限性进行综述。

关键词: 二阶段设计病例镜像研究暴露交叉研究病例-病例-时间-对照研究

Research progress on case-control study

Zhang Feifei, Liu Zhidong, Zhang Caixia, Jiang Baofa

Department of Epidemiology, School of Public Health, Shandong University, Jinan 250012, China

Corresponding author: Jiang Baofa, Email: bjiang@sdu.edu.cn

Abstract: Several new varients related to the case-control designs have been developed in the recent decades, and this article briefly summarized four new designs:two-stage design, case-specular study, exposure-crossover study and case-case-time-control study. This paper involved principles of study design, requisites for application, advantages and disadvantages on all the studies.

Key words: Two-stage design Case-specular study Exposure-crossover study Case-case-time control study

病例对照研究是分析流行病学中最重要的研究类型之一，由于其存在节省人力、物力及易于实施等一系列优点，在流行病学研究中应用广泛。病例对照研究通过研究病例和对照的暴露差异来探讨和检验病因假说。近年来，由于各种学科分支不断细化和交叉，病例对照研究衍生出了一系列研究方法，如巢式病例对照研究、病例队列研究、单纯病例研究（包括传统的单纯病例研究、病例父母对照研究、患病亲属对研究、病例交叉研究、病例镜像研究）、病例-时间-对照研究、病例-病例-时间-对照研究、二阶段设计、比例死亡比研究、现患病例的病例对照研究、累积（流行）病例对照研究、密度病例对照研究、暴露交叉研究。这些方法的实质性差别在于对照选择方式不同。病例对照研究的许多衍生类型在流行病学系列教材中已有详细介绍，本文仅对尚未详述的四种方法（二阶段设计、病例镜像研究、暴露交叉研究以及病例-病例-时间-对照研究）进行综述。

1. 二阶段设计（two-stage design）：和队列研究难以研究罕见疾病一样，病例对照研究亦无法研究罕见的暴露。当疾病和暴露均罕见时，无论是哪种研究均需要非常大的样本才能保证足够的统计效力，要获得所有样本中的各种协变量信息势必浪费很多资源，此时解决该问题的方法是采用二阶段抽样（Two-stage sampling）即二阶段设计^{[1, 2]}，二阶段设计资料中全部研究对象的暴露和疾病状况是已知的，因此可以计算针对全部研究对象的粗效应估计值，OR＝（N₁N₄）/（N₂N₃），但有关混杂因子和效应修饰因子的协变量资料只从暴露-疾病四格表中每个格子所抽的子样本（n_i）中获得（图 1）^[2]。2009年，Oudin等^[3]采用二阶段设计调查了瑞典南部斯堪尼亚某地区缺血性脑卒中入院率和居民室外NO_x之间的关系。第一阶段的对照是所有出生于1923－1965年且2002年在斯堪尼亚居住的研究对象（n＝556 912）；病例是第一次发生缺血性脑卒中且于2001－2005年在瑞典脑卒中注册系统进行注册的斯堪尼亚居民（n＝4 904）。第二阶段选用阶段一中具有吸烟水平、是否患糖尿病和服用高血压药物等协变量信息的那部分病例作为该阶段病例（n＝4 375）；相应对照是从一个公共卫生调查中抽取的4 716个对象（因为阶段一中对照组包括某年龄段所有该地居民，因此认为阶段二对照来自于阶段一），并从中获得前述的协变量信息。每个居民暴露的室外平均NO_x浓度通过一个地理信息系统和排放数据库获得。数据采用logistic回归进行分析。结果显示，和基础值＜10 μg/m³相比，NOx每增加20～30 μg/m³发生缺血性脑卒中的OR值为0.95（95%CI：0.86～1.06），即NO^x和缺血性脑卒中之间没有关联。二阶段抽样的适用条件：获得暴露信息（如电话采访）相对经济，但是获得协变量信息非常昂贵（如实验研究）；全人群的暴露信息已经获得（如职业队列的工作史），但是仍需要协变量信息（如基因型）。因此，和传统单阶段病例对照研究相比，二阶段设计的优点是既经济又能获得协变量。二阶段设计的另外一个优点是当需要对感兴趣的变量进行分层分析时，二阶段设计可以保证分层后暴露-疾病四格表每个格子有均衡的研究对象。采用单阶段病例对照设计研究罕见疾病时，分层后很容易出现某个格子病例数非常少的情况，这会导致效应估计值的可信区间很宽，而二阶段设计可以很好地克服这一缺点^[2]。二阶段抽样可以用分层分析的方法以充分利用两阶段收集的信息^{[4, 5]}，但缺点是效应值估计过程相当复杂，因此可通过R软件“osDesign”包中tpsSim和tpsPower两个函数实现^[6]。

图 1 二阶段设计

图选项

需要注意的是，上述设计与当前广泛应用于全基因组关联分析（GWAS）的二阶段设计原理不同^{[7, 8]}，后者目的在于将第一阶段中选出有意义的SNPs在第二阶段进一步分析，其选择对照和病例的方式与传统的病例对照研究相同，实质是进行了两次独立的病例和对照抽样过程（二阶段设计中第二阶段的对照选自第一阶段已纳入的对照）。

2. 病例镜像研究（case-specular study）：当所要研究的暴露是一个环境源（environmental source，比如后述的供电线和手机）时，可以通过一个假想实验为每个病例建立一个镜像（假想）对照，由此衍生出了病例镜像研究，属单纯病例研究范畴。病例或者暴露源凭想象移动到另一个除没有暴露效应外其他条件均一致的镜像位置；在这种假设情形下，镜像暴露水平被看作是和“病例”匹配的“对照”暴露，通过比较二者的暴露水平分析暴露和疾病的关系^[4]。Zaffanella等^[9]在1998年采用病例镜像研究探讨了儿童白血病与供电线暴露间的关联。将电线代码分为3类：极高电流设备（VHCC）、高电流设备（OHCC）和低电流设备（LCC）。供电线为暴露源，对照是病例住房以街道中线为轴虚拟出的镜像住房，两组的暴露水平分别通过病例住房到供电线的距离和虚拟镜像到供电线距离反映。研究结果显示，与LCC组相比，OHCC的HR＝2.00（95%CI：1.10～3.62），而VHCC的HR＝4.00（95%CI：2.01～7.97），提示居住环境中的供电线可能是该地区儿童罹患白血病的危险因素。随后在2011年，Larjavaara等^[10]采用病例镜像设计进行了神经胶质瘤发病部位和手机使用的关联研究（图 2），旨在评价神经胶质瘤是否在辐射程度最强的部位发生，手机的位置即暴露线用外耳道口到嘴角的连线表示，整条暴露线均视作暴露源，对照是神经胶质瘤中心（实心圆）所在同侧大脑半球，根据矢状轴上某中心点A虚拟出的镜像肿瘤部位（空心圆），两组的暴露水平可以分别通过病例肿瘤部位和虚拟镜像到暴露线的距离d_病例和d_镜像反映。该研究收集了来自欧洲地区7个国家（2000－2004年）的888例神经胶质瘤患者，根据辐射影像学的三维网格确定肿瘤的中点。采用条件logistic回归，以距离作为暴露变量，病例/镜像作为结局变量计算OR值和95%CI，解释变量包括手机规律使用、累积通话时间以及手机使用年限。结果显示，病例和镜像对照的肿瘤部位和暴露源的距离相似，95%CI均包含1，提示手机使用者神经胶质瘤并非在辐射程度最强的部位发病。实施病例镜像研究需基于以下假设：①病例镜像的概率矩阵必须是对称的，也就是病例和镜像的位置和与暴露因素的位置无关。②潜在的混杂因素在对称轴两侧不存在差异。③病例和镜像的暴露测量方法相同。病例镜像研究有诸多优点：①和匹配病例对照研究类似，可以控制社会经济条件等周围居住环境所导致的混杂。②由于其不需要设置对照组，实施起来更加经济，并且可以消除选择偏倚。③其统计效力和具有相同病例数的病例对照研究类似。当然病例镜像研究也有一些潜在的缺点：①病例和镜像高度匹配带来的不精确性。如果一个病例和它的镜像具有相同的暴露，那么这个对子对统计分析没有贡献。这种高度匹配的对子所占比例越大，结果越不精确。②由于未使用对照，病例和镜像无法实现盲法。

图 2 镜像对照选择示意图

图选项

3. 暴露交叉研究（exposure-crossover study）：暴露交叉研究由Redelmeier^[11]于2013年提出，和病例交叉研究类似，均是以自身为对照，通过观察暴露期和非暴露期结局事件的发生情况，从而判断暴露和结局事件有无关联及关联程度大小。和病例交叉不同的是，其研究起点为暴露发生开始，因此暴露必须有明确的日期；并且研究方向为双向，即需要调查暴露发生时（诱导期）、发生前（基线期/诱导前期）和发生后（诱导后期）3个阶段结局事件发生情况。此外，还要求结局事件是重复发生的，如常见疾病克罗恩病、心绞痛复发。统计学分析可采用配对t检验、McNemar检验或广义估计方程。如果诱导期和诱导后期的结局事件发生情况明显不同，则说明暴露和结局事件有关联。

Redelmeier^[11]以研究产妇和交通事故发生率关系为例说明了暴露交叉研究的实施步骤（图 3）。第一步确定加拿大安大略省2006年1月1日至2009年12月31日所有产妇为研究对象，研究起点为每位产妇的分娩日期；第二步将每位产妇分娩前4年（-4～-1）和分娩后1年（＋1），共5年时间作为研究阶段，并把每年分成13 段×28 d；第三步确定时间间隔，即把分娩前1年（13段）作为诱导期；诱导期前3年（39段）作为基线期；诱导期后1年（13段）作为诱导后期；第四步确定结局事件为产妇驾车是否发生了交通事故；最后一步通过比较3年基线期和1年诱导后期这些产妇的交通事故发生率以得出结论。研究共纳入384 356个研究对象。平均每段（28 d）发生交通事故120次。3年基线期所有产妇共发生了5 189次交通事故。1年诱导后期所有产妇总共发生了877次交通事故。统计分析显示，成为产妇后会降低随后的交通事故发生率。本研究优点在于可同时调查一种暴露和多种结局事件的关系；控制研究对象不易测的固有特征；减少时间趋势造成的混杂；避免选择不合适的对照；并且考虑结局发生后暴露也随之改变的情况。暴露交叉研究的局限性包括：①由于需要足够长的观察期来获得稳定的基线期和诱导后期资料，而实际情况长时间的资料不易获得，导致其实用性不强。②可能存在一些方法上的不确定性：如缺乏明确的时间分段和分间隔标准；难以确定合适的样本量和把握度；规定每个患者相同的观察期，可能导致一些研究对象因观察期不够长而被剔除，损失了部分样本量。③分析诱导期可能存在误区：仅比较了基线期和诱导后期的结局事件发生情况，而未考虑诱导期，如果诱导期研究对象由于其他原因发生了健康状况改变，如患者病情好转，那么暴露于危险因素所致的不良结局未能持续到诱导后期，从而导致效应值的低估。④存在偏倚：由于暴露不是随机的，可能存在混杂偏倚；研究对象均为存活者因此可能存在幸存者偏倚，并且这种偏倚存在不对称性（基线期和诱导期有明显的幸存者偏倚，而诱导后期不存在）。

图 3 暴露交叉研究

图选项

4. 病例-病例-时间-对照研究（case-case-time- control study）：单纯病例研究如单向病例交叉研究、自身对照病例系列研究，可以控制研究对象不随时间变化的固有混杂，但不能控制暴露-时间趋势所带来的混杂。双向病例交叉研究虽可以调整暴露-时间趋势，但不能解决药物流行病学中疾病影响未来药物使用的情况，于是Suissa^[12]结合病例交叉研究和传统的病例对照研究提出了病例-时间-对照研究，虽很好地解决了上述问题，但在病例组和对照组不能良好地匹配时又会引入新的选择偏倚。为解决此偏倚，Wang等^[13]于2011年提出了病例-病例-时间-对照研究。和病例-时间-对照研究不同的是，该设计不使用外部对照，而是将“未来病例”作为当前病例的对照，以控制暴露-时间趋势带来的偏倚，因此该方法的前提假设是病例组和对照组的暴露-时间趋势相同。其应用的前提条件是短暂暴露效应、急性结局事件，同时结局事件在时间上不连续。分析思路：假设“当前期”（current time）研究对象1（病例）发生结局事件，而研究对象2（未来病例）未发生结局事件，但未来即将发生结局事件，“对照期”（reference time）是当前期以前的一段时间，并且病例和未来病例的当前期和对照期是相匹配的，分析时通过病例间和病例内对比获得暴露和结局之间的关系，将当前病例的暴露比值除以未来病例的暴露比值得到暴露结局关系的估计值（图 4）。在实施病例-病例-时间-对照研究的过程中，需要考虑：①仅适用于短期暴露所导致的急性事件。②需考虑研究随访持续时间，以及一部分病例无法和未来病例成为匹配对照的情况。③需考虑当前病例发生结局事件和匹配的未来病例发生结局事件之间允许的时间间隔。④除了时间上的匹配，未来病例也需在其他变量如年龄、性别或地理位置和当前病例匹配。

图 4 病例-病例-时间-对照研究

图选项

Wang等^[14]采用该设计分析了美国退伍军人抗精神病药和缺血性脑卒中发作的关系，通过未来病例，调整因脑卒中某个前驱症状所导致的脑卒中发病前抗精神病药使用增加而带来的暴露-时间趋势偏倚。以2002－2007年所有因缺血性脑卒中的住院退伍军人均作为研究对象。将抗精神病药开药日期和用药结束这段时间作为暴露阶段。对于每个脑卒中病例，“当前期”定义为住院前的1～30 d，“对照期”定义为住院前的91～120 d。如果患者在“当前期”或“对照期”这30 d至少有3 d的使用了抗精神病药，则该患者视为在“当前期”或“对照期”内暴露于该药，如果使用了其他药物则视为未暴露于该药。然后对所有病例当前期的暴露和对照期的暴露进行比较。将病例组所有患者在当前期和对照期的暴露比值（暴露/非暴露）除以未来病例组（对照）相应时期的暴露比值，从而得到抗精神病药暴露对脑卒中发病风险的效应估计值。结果显示，暴露-时间趋势调整后，使用抗精神病药比使用其他药物使得脑卒中发病风险增加了1.8倍（95%CI：1.7～1.9），提示使用抗精神病药可能是脑卒中发作的高危因素，短期暴露于抗精神病药后这种风险明显增加。

本文综述了近年来教科书上未详细阐述的新研究设计，各研究设计在选择对照时各不相同，目的是更好地控制各种混杂，以保证病例组和对照组的均衡，从而得到更准确的研究结果。在后续流行病学研究应用中，需要注意各研究的应用限制及优缺点，以期为流行病学探索病因提供更有力的依据。

利益冲突 无

参考文献

[1] Walker AM. Anamorphic analysis:sampling and estimation for covariate effects when both exposure and disease are known[J]. Biometrics,1982,38(4):1025-1032. DOI:10.2307/2529883.

[2] White JE. A two stage design for the study of the relationship between a rare exposure and a rare disease[J]. Am J Epidemiol,1982,115(1):119-128.

[3] Oudin A,Stroh E,Stromberg U,et al. Long-term exposure to air pollution and hospital admissions for ischemic stroke. A register-based case-control study using modelled NO_x as exposure proxy[J]. BMC Public Health,2009,9:301. DOI:10.1186/1471-2458-9-301.

[4] Rothman KJ,Greenland S,Lash TL. Modern epidemiology[M]. 3^rd ed. Philadelphia:Wolters Kluwer Health/Lippincott Williams & Wilkins,2008:156-161.

[5] Cain KC,Breslow NE. Logistic regression analysis and efficient design for two-stage studies[J]. Am J Epidemiol,1988,128(6):1198-1206.

[6] Haneuse S,Saegusa T,Lumley T. osDesign:An R package for the analysis,evaluation,and design of two-phase and case-control studies[J]. J Stat Softw,2011,43(11). DOI:10. 18637/jss.v043.i11.

[7] Thomas D. Gene-environment-wide association studies:emerging approaches[J]. Nat Rev Genet,2010,11(4):259-272. DOI:10.1038/nrg2764.

[8] Thomas DC,Casey G,Conti DV,et al. Methodological issues in multistage genome-wide association studies[J]. Stat Sci,2009,24(4):414-429. DOI:10.1214/09-STS288.

[9] Zaffanella LE,Savitz DA,Greenland S,et al. The residential case-specular method to study wire codes,magnetic fields,and disease[J]. Epidemiology,1998,9(1):16-20. DOI:10.1097/00001648-199801000-00006.

[10] Larjavaara S,Schüz J,Swerdlow A,et al. Location of gliomas in relation to mobile telephone use:a case-case and case-specular analysis[J]. Am J Epidemiol,2011,174(1):2-11. DOI:10.1093/aje/kwr071.

[11] Redelmeier DA. The exposure-crossover design is a new method for studying sustained changes in recurrent events[J]. J Clin Epidemiol,2013,66(9):955-963. DOI:10.1016/j.jclinepi. 2013.05.003.

[12] Suissa S. The case-time-control design[J]. Epidemiology,1995,6(3):248-253. DOI:10.1097/00001648-199505000-00010.

[13] Wang S,Linkletter C,Maclure M,et al. Future cases as present controls to adjust for exposure trend bias in case-only studies[J]. Epidemiology,2011,22(4):568-574. DOI:10.1097/EDE.0b013 e31821d09cd.

[14] Wang S,Linkletter C,Dore D,et al. Age,antipsychotics,and the risk of ischemic stroke in the Veterans Health Administration[J]. Stroke,2012,43(1):28-31. DOI:10.1161/STROKEAHA.111. 617191.