中华流行病学杂志  2016, Vol. 37 Issue (6): 886-890   PDF    
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.06.029
中华医学会主办。
0

文章信息

彭威军, 张恒, 李颖雪, 李晨阳, 严薇荣.
Peng Weijun, Zhang Heng, Li Yingxue, Li Chenyang, Yan Weirong.
对数线性模型在病例-父母/对照-母亲混合设计中的应用
Log-linear model used in the hybrid design of case-parents triad/control-mother dyad
中华流行病学杂志, 2016, 37(6): 886-890
Chinese Journal of Epidemiology, 2016, 37(6): 886-890
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.06.029

文章历史

投稿日期:2015-10-13
对数线性模型在病例-父母/对照-母亲混合设计中的应用
彭威军, 张恒, 李颖雪, 李晨阳, 严薇荣     
430030 武汉, 华中科技大学同济医学院公共卫生学院流行病与卫生统计学系
摘要: 以唇腭裂与亚甲基四氢叶酸还原酶(MTHFR)基因A1298C多样性的关系为例,基于似然比检验(LRT)的对数线性模型分析母亲、子代基因型与唇腭裂的关系,介绍应用对数线性模型分析病例-父母/对照-母亲混合设计资料的方法应用。发现母亲基因型为CC时,相对于基因型为AA的母亲,其子代唇腭裂发病风险降低,S2=0.45(95%CI:0.26~0.79);子代基因型为AC时,相对于AA其发病风险降低,R1=0.69(95%CI:0.48~0.97),其余未见关联。混合设计的效力要大于病例-父母对照研究(0.86>0.78)。表明MTHFR A1298C可能在唇腭裂的病因学机制中起重要作用。应用对数线性模型对这类混合设计资料的分析可以同时探讨母亲、子代基因型对疾病的影响,且相对病例-父母对照研究效力更高,适用于出生缺陷等生命早期疾病的病因学研究。
关键词: 混合设计    对数线性模型    基因多态性    
Log-linear model used in the hybrid design of case-parents triad/control-mother dyad
Peng Weijun, Zhang Heng, Li Yingxue, Li Chenyang, Yan Weirong     
Department of Epidemiology and Statistics, School of Public Health, Tongji Medical College, Huazhong University of Science and Technology, Wuhan 430030, China
Fund program: National Natural Science Foundation of China (81172679)
Corresponding author: Yan Weirong, Email:weirong.yan@hust.edu.cn
Abstract: This study introduced the application of a log-linear model in the hybrid design of case-parents triad/control-mother dyad. Data related to the association between cleft lip with palate (CLP) and methylenetetrahydrofolate reductase (MTHFR) gene A1298C diversity was analyzed. Log-linear model based on likelihood ratio tests (LRTs) was used to analyze the relationships between mother, offspring genotypes and CLP. Data from our study noticed that children of mothers carrying the CC genotype presented a lower risk of CLP, comparing with the children of mothers carrying the AA genotype, with S2=0.45 (95%CI:0.26-0.79). Offspring that carrying the AC genotype presented a lower risk of CLP, comparing with the offspring that carrying the AA genotype, with R1=0.69 (95%CI:0.48-0.97). However, no other types of relationships were found. The power of hybrid design was greater than the case-parents study (0.86>0.78). MTHFR A1298C polymorphism seemed to have played an important role in the etiology on both cleft lip and palate. Data from the hybrid design and the log-linear model could help researchers to explore the effects of genotypes from both mothers and the offspring. This study design would present stronger power than the regular case-parents studies thus suitable for studies on the etiology of diseases in early lives, as birth defects.
Key words: Hybrid design    Log-linear model    Gene polymorphism    

病例-父母对照研究(case-parents triad)是由传统病例对照研究发展而来。对于某些疾病,如出生缺陷等生命早期疾病,母亲的基因既可通过遗传也可通过改变子宫内环境而影响子代的发病[1],病例对照研究无法区分开母亲和子代基因效应对疾病的影响,而病例-父母对照研究同时收集病例及其父母的遗传信息,应用对数线性模型进行分析即可同时探讨母亲和子代基因多态性、母-子基因交互作用对疾病的影响[2, 3] 。应用对数线性模型分析病例-父母对照资料需要满足两个前提假设,分别为孟德尔遗传定律和婚配对称[4]。然而单纯的病例-父母对照研究设计无法对这两个前提假设进行检验[1, 5, 6],导致研究的可信度受到影响。

近年来,有学者提倡将基于家庭的病例-父母对照研究与基于人群的病例对照研究相结合,组成一种全新的病例-父母/对照-母亲混合设计,即检验病例及其父母的基因型以及对照及其母亲的基因型来探讨基因型效应与疾病的关联。应用对数线性模型对这种混合设计的资料进行分析,也可以同时估计母亲与子代基因型对疾病的影响,相对于病例-父母对照研究,其可以检验婚配对称,且研究效力更高,还可针对所添加的无病对照检验是否存在人群分层所致偏倚[1, 5]。这种混合设计在国外已有研究,但在国内尚未见文献报道,为此本文将通过实例分析其原理和方法。

基本原理

应用对数线性模型对病例-父母/对照-母亲混合设计研究资料进行分析,采用最大期望(expectation-maximization,EM)算法将对照及其母亲的数据整合至对数线性模型之中,并用最大似然法对病例与对照父母子基因型组合实际与理论频数进行迭代拟合,以分别估计母亲、子代的基因型效应在疾病中的作用。根据父母所携带的易感等位基因数目将婚配类型分为9种,并结合其子代可能的基因型得到15种可能的父母子基因型组合[7]。而在对照中,由于缺乏对照父亲的信息,只能根据对照家庭的母亲与子代的信息得到7种可能的基因型组合,因此在混合设计中,总共有22种可能的基因型组合(表 1第1、2列)[5]。在病例中,各基因型组合的理论频数由孟德尔遗传概率、相对危险度参数、婚配类型参数μmf及归一化因子相乘得来(表 1第5、7列),适合于对数线性泊松回归模型。而对照-母亲二元设计的理论频数由各参数相加得来,不满足对数线性,需将对照父亲的基因型数据当成缺失数据,并用EM算法处理这部分“缺失值”[8]表 1中提供了婚配对称与不对称情况下的理论频数,婚配对称即在任何可能的父母基因型组合下,父母的基因型分布对称,如杂合子的母亲与纯合子的父亲结婚的概率等同于纯合子的母亲与杂合子的父亲结婚的概率[3, 4]

表 1 在婚配对称和不对称条件下病例-父母/对照-母亲的理论频数

通过EM算法,可将病例与对照的数据结合起来,在假设不存在人群结构可能导致的偏倚时,得到一个包括30种基因型组合(病例和对照各15种)的对数线性模型,即

式中μmf为婚配类型参数,即父母携带易感等位基因数分别为mf在源人群中的概率,可通过人群等位基因频率得出;I()表示当括号里的条件满足时该值为1,不满足时为0;D代表疾病水平,d为其取值,病例为1,对照为0;α1α2β1β2分别为S1S2R1R2的自然对数,S1S2R1R2分别为母亲、子代携带一个或两个易感等位基因时相对于不携带该等位基因时子代患所研究疾病的相对危险度;γ值为归一化因子B的自然对数;Offmfc则代表孟德尔遗传概率,即父母的基因型通过自由组合得到某种子代基因型的概率,文中为表 1第5列中所示的恒定系数(1,1/2或者1/4)。

模型(1)是在9种婚配类型参数的基础上建立起来的,而在婚配对称的前提下,父母携带的易感等位基因数目分别为M=m,F=f婚配的概率与父母分别为M=f,F=m婚配的概率在源人群中一致,如用婚配类型参数表示,即μ01=μ10μ02=μ20μ12=μ21,由此可以将婚配类型整合为6种(表 1第6列)[5]。对婚配类型参数μmf和孟德尔遗传概率值Offmfc进行适当调整,即可使模型(1)分别适用于婚配对称和不对称的情况(表 1第5、7列)。

混合设计不需要满足婚配对称,但其在婚配对称与不对称的情况下算法各不相同。而如果病例和对照所在源人群遗传背景不同,对照选取不当,可能导致基因与疾病产生虚假关联,即存在人群分层所致的偏倚,这种情况下对照的数据将无法使用,只能使用病例-父母对照设计来估计基因型效应。因此在应用对数线性模型进行基因型效应估计之前,需对所得资料进行婚配对称与否及人群结构的检验。通过增减一些条件来修改模型(1)可以构建似然比函数来检验人群分层带来的偏倚或婚配对称。可先采用母子二元对照数据检验婚配对称,然后在婚配对称或不对称的基础上进行人群结构的检验。

在排除了人群分层所致偏倚后,根据婚配对称检验结果选择相应的算法,通过模型(1)可以得到由各参数构成的理论频数,利用理论频数与实际频数之间的对应关系,采用最大似然法将实际频数和理论频数进行拟合,可以同时得到母亲、子代各基因型的相对危险度参数。模型(1)适用于母亲、子代基因型都可能对疾病发生产生影响或不清楚疾病是由母亲还是子代基因型所致的情况。

此外,对于某些疾病,假设其发生只与子代自身的基因型有关,而与基因是由父亲还是母亲传递而来无关,此时只需要单独考虑子代基因型的效应。将模型(1)适当调整可得到模型(2):

通过最大似然法对理论频数与实际频数进行拟合,估计参数β1β2R1=exp(β1),R2=exp(β2),并可估计其置信区间。

同样,假设某些疾病的发生是由于母亲的基因型影响了胎儿的生长发育环境而导致,子代所携带的基因对子代的发病不起作用,这时只需要单独考虑母亲的基因型效应,由此可得到模型(3):

分别计算α1α2S1=exp(α1),S2=exp(α2),估计其置信区间。

采用LEM软件来分析数据[9]。该软件由荷兰Tilburg大学Vermunt等开发,可通过EM算法拟合包含缺失数据的对数线性模型[5]。其所需程序语言等相关资料均可从Weinberg等提供的网站上获得(http://www.niehs.nih.gov/research/atniehs/labs/bb/staff/weinberg/index.cfm#downloads)。

实例分析

以唇腭裂与亚甲基四氢叶酸还原酶(MTHFR)基因A1298C多态性的关系为例(表 2),应用LEM软件对所得资料进行分析。

表 2 各200例唇腭裂病例和对照MTHFR A1298C基因多态性的基因型频数分布

1. 前提检验:应用LEM软件对资料进行婚配对称及人群结构检验,先利用对照-母亲部分的数据进行婚配对称检验,证实该人群中婚配对称(LRT=0.51,df=1,P>0.05),在此基础上检验人群结构,证实病例与对照之间的人群结构差异无统计学意义(LRT=1.93,df=4,P>0.05)。

2. 病例-父母/对照-母亲混合设计:前提检验结果提示可以应用病例-父母/对照-母亲混合设计模型对资料进行分析。结果表明:与野生型纯合子(AA)相比,子代基因型为杂合子(AC)时发病风险降低,R1=0.69(95%CI:0.48~0.97),而子代为突变型纯合子(CC)时则未见关联,R2=0.66(95%CI:0.39~1.12);母亲基因型为突变型纯合子(CC)时,相比于基因型为AA的母亲,其子代患唇腭裂的风险降低,S2=0.45(95%CI:0.26~0.79),而母亲为杂合子(AC)时则未见关联,S1=0.87(95%CI:0.60~1.26)。见表 3

表 3 母亲、子代 MTHFR A1298C基因型与唇腭裂的关联性(混合设计)

3. 病例-父母对照研究:先前的检验已经证实了人群满足婚配对称,可以应用病例-父母对照模型对病例数据进行分析。结果表明:与野生型纯合子(AA)相比,子代基因型为杂合子(AC)时发病风险降低,R1=0.64(95%CI:0.44~0.95),而子代为突变型纯合子(CC)时则未见关联,R2=0.58(95%CI:0.32~1.06);母亲基因型为突变型纯合子(CC)时,相比于基因型为AA的母亲,其子代患唇腭裂的风险降低,S2=0.41(95%CI:0.22~0.76),而母亲为杂合子(AC)时则未见关联,S1=0.75(95%CI:0.49~1.15)。见表 4

表 4 母亲、子代 MTHFR A1298C基因型与唇腭裂的关联性(病例-父母对照研究)

综合表 3表 4可发现,病例-父母对照研究得到的相对危险度值均略小于混合设计得到的值。

4. 效力比较:两研究设计的效力比较可通过自由度为4的似然比检验。通过表 1中所示表达式分别计算出两种研究设计中各基因型组合的理论频数,将其代替实际频数纳入LEM软件进行分析(表 5)。

表 5 病例-父母/对照母亲混合设计与病例-父母对照研究效力对比
讨 论

病例-父母/对照-母亲混合设计通过收集病例及其父母、对照及其母亲的基因型信息,用以估计母亲、子代基因型效应与疾病的关系。这种混合设计不仅可以应用于病例为子代的情况,也可以应用于病例为母亲的情况,本文实例中以病例为子代的情况,探讨母亲、子代的基因型对子代患病的影响。

Vermeulen等[5]曾探讨了不同等位基因频率和不同相对危险度情况下的各研究设计的效力对比,均得出病例-父母/对照-母亲混合设计的效力高于病例-父母对照研究[7]。本文的实例结果也佐证了这一点。相对于病例-父母对照研究,混合设计将基于人群的病例对照研究与基于家庭的病例-父母对照研究结合起来,可以综合利用这两方面的信息,其增加的对照部分可以增加研究的效力[10]。在混合设计中,平均每个病例对照组合需要检测5个个体的基因型(病例3个,对照2个),而在病例-父母对照中只需要检测3个个体。在相同的病例数的前提下,混合设计的样本含量增加,纳入了更多的基因型信息,也因此带来更大的效力。

应用对数线性模型分析病例-父母对照研究数据时要求研究对象所在源人群满足婚配对称,却无法对其检验,而在混合设计中不仅可以检验婚配对称,还可以在婚配不对称的情况下估计基因型效应[5]。因婚配对称时引入的婚配类型参数(6种)要少于婚配不对称时的婚配类型参数(9种),故婚配对称下的模型要比婚配不对称下的模型具有更高的效力。

以往的研究方法主要从子代角度考虑易感基因多态性与疾病的关系。而对于一些疾病,如出生缺陷疾病[11]、儿童肿瘤[12]及成年人的某些复杂性疾病[13]等,母亲的易感等位基因不仅可以通过遗传给子代,还可通过影响子宫内胎儿的生长发育环境对子代将来发生某种疾病的可能性产生影响[14]。应用对数线性模型的混合设计可以同时探讨母亲、子代基因型对疾病的影响,为疾病病因研究提供了一个新思路。

病例-父母/对照-母亲混合设计也存在不足。如引入对照可能带来人群分层的风险,因此混合设计必须排除人群分层带来的偏倚,利用对数线性模型中可以对其进行检验。如果通过计算发现有人群分层引起的偏倚,则只能舍弃对照-母亲这部分的数据,采用病例-父母对照设计。此外,采用混合式设计需要收集病例及其父母以及对照和其母亲的资料,需要尽量保持数据的完整[15],所需要的成本和难度也相应增加。

总而言之,病例-父母/对照-母亲混合设计相对于病例-父母对照研究有其独特的优势。而且就理论而言,混合设计还可以采用对数线性模型探讨环境因素及基因-环境交互作用对疾病的影响[5]。此外,Weinberg[16]曾在病例-父母对照研究中应用对数线性模型探讨亲源效应,混合式设计中可以采用相似的建模策略来探讨亲源效应[5]。至于混合设计的其他类型,如病例-父母/对照-父母研究[1]、病例-母亲/对照-母亲研究[17],这些混合设计各有其优缺点,但目前国内还鲜有报道,尚需做进一步的研究和探讨。

利益冲突

参考文献
[1] Weinberg CR,Umbach DM. A hybrid design for studying genetic influences on risk of diseases with onset early in life[J]. Am J Hum Genet,2005,77(4):627-636. DOI:10.1086/496900.
[2] Weinberg CR,Wilcox AJ,Lie RT. A log-linear approach to case-parent-triad data:assessing effects of disease genes that act either directly or through maternal effects and that may be subject to parental imprinting[J]. Am J Hum Genet,1998,62(4):969-978. DOI:10.1086/301802.
[3] Wilcox AJ,Weinberg CR. Distinguishing the effects of maternal and offspring genes through studies of 'case-parent triads'[J]. Am J Epidemiol,1998,150(4):428-429.
[4] 朱明,聂绍发,严薇荣. 对数线性模型在病例-父母对照研究中的应用[J]. 中华流行病学杂志,2012,33(4):435-438. DOI:10.3760/cma.j.issn.0254-6450.2012.04.020. Zhu M,Nie SF,Yan WR. Application of log-linear model in the case-parent triad study[J]. Chin J Epidemiol,2012,33(4):435-438. DOI:10.3760/cma.j.issn.0254-6450.2012.04.020.
[5] Vermeulen SH,Shi M,Weinberg CR,et al. A hybrid design:case-parent triads supplemented by control-mother dyads[J]. Genet Epidemiol,2009,33(2):136-144. DOI:10.1002/gepi.20365.
[6] Epstein MP,Veal CD,Trembath RC,et al. Genetic association analysis using data from triads and unrelated subjects[J]. Am J Hum Genet,2005,76(4):592-608. DOI:10.1086/429225.
[7] Schaid DJ,Sommer SS. Genotype relative risks:methods for design and analysis of candidate-gene association studies[J]. Am J Hum Genet,1993,53(5):1114-1126.
[8] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the EM algorithm[J]. J Roy Statist Soc,1977,39(1):1-38.
[9] van Den Oord EJ,Vermunt JK. Testing for linkage disequilibrium,maternal effects,and imprinting with (In)complete case-parent triads,by use of the computer program LEM[J]. Am J Hum Genet,2000,66(1):335-338. DOI:10.1086/302708.
[10] Nagelkerke NJD,Hoebee B,Teunis P,et al. Combining the transmission disequilibrium test and case-control methodology using generalized logistic regression[J]. Eur J Hum Genet,2004,12(11):964-970. DOI:10.1038/sj.ejhg.5201255.
[11] Skare Ø,Jugessur A,Lie RT,et al. Application of a novel hybrid studyφ design to explore gene-environment interactions in orofacial clefts[J]. Ann Hum Genet,2012,76(3):221-236. DOI:10.1111/j.1469-1809.2012.00707.x.
[12] Lupo PJ,Nousome D,Kamdar KY,et al. A case-parent triad assessment of folate metabolic genes and the risk of childhood acute lymphoblastic leukemia[J]. Cancer Causes Control,2012,23(11):1797-1803. DOI:10.1007/s10552-012-0058-z.
[13] Li Q,Fallin MD,Louis TA,et al. Detection of SNP-SNP interactions in trios of parents with schizophrenic children[J]. Genet Epidemiol,2010,34(5):396-406. DOI:10.1002/gepi. 20488.
[14] Gjessing HK,Lie RT. Case-parent triads:estimating single-and double-dose effects of fetal and maternal disease gene haplotypes[J]. Ann Hum Genet,2006,70(Pt 3):382-396. DOI:10.1111/j.1529-8817.2005.00218.x.
[15] Weinberg CR. Allowing for missing parents in genetic studies of case-parent triads[J]. Am J Hum Genet,1999,64(4):1186-1193. DOI:10.1086/302337.
[16] Weinberg CR. Methods for detection of parent-of-origin effects in genetic studies of case-parents triads[J]. Am J Hum Genet,1999,65(1):229-235. DOI:10.1086/302466.
[17] Shi M,Umbach DM,Vermeulen SH,et al. Making the most of case-mother/control-mother studies[J]. Am J Epidemiol,2008,168(5):541-547. DOI:10.1093/aje/kwn149.