﻿ 纵向数据中评估暴露总效应的序列条件平均模型
 中华流行病学杂志  2020, Vol. 41 Issue (1): 111-114 PDF
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2020.01.020

0

#### 文章信息

Wang Xiaolei, Tian Mengyuan, Zhang Na, Gao Hong, Tan Hongzhuan

A sequential conditional mean model for assessing total effects of exposure in longitudinal data

Chinese Journal of Epidemiology, 2020, 41(1): 111-114
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2020.01.020

### 文章历史

1. 中南大学湘雅公共卫生学院流行病与卫生统计学系, 长沙 410078;
2. 湖南省人民医院/湖南师范大学附属第一医院, 长沙 410016

A sequential conditional mean model for assessing total effects of exposure in longitudinal data
Wang Xiaolei1 , Tian Mengyuan1 , Zhang Na1,2 , Gao Hong1 , Tan Hongzhuan1
1. Department of Epidemiology and Health Statistics, Xiangya School of Public Health, Central South University, Changsha 410078, China;
2. Hunan Provincial People's Hospital/the First Affiliated Hospital of Hunan Normal University, Changsha 410016, China
Abstract: In prospective cohort study, multi follow up is often necessary for study subjects, and the observed values are correlated with each other, usually resulting in time-dependent confounding. In this case, the data generally do not meet the application conditions of traditional multivariate regression analysis. Sequential conditional mean model (SCMM) is a new approach that can deal with time-dependent confounding. This paper mainly summarizes the basic theory, steps and characteristics of SCMM.
Key words: Sequential conditional mean model    Time-dependent covariate    Propensity score    Generalized estimating equation

Robins等[1]在1999年提出了边缘结构模型（marginal structural models，MSM），该模型作为一种可以处理时依性混杂的方法而被广泛应用。其原理是通过计算逆概率权重对原人群进行加权从而构造出虚拟人群，在该虚拟人群中对暴露总效应进行评估[3-4]。但是，在对原人群进行加权时，由于某些个体协变量差异过大而导致极端权重的出现，如果直接对极端权重进行截断又可能导致某些重要信息缺失，在小样本中该暴露总效应的评估可能会存在偏倚[5]。同时，在暴露和非暴露前一阶段的协变量差异很大时，MSM估计的边际效应可能不能真实的反映暴露的总效应。

1. Xt对Yt的总效应评估模型：首先，为Yt拟合一个模型，假设不存在UY，即Yt仅受到Xt、Xt-1、Lt的影响，同时Yt-1对Xt的暴露效应也会产生影响[7]，采用模型（1）可以对暴露总效应进行评估，βx1代表Xt与Yt之间的总体效应，模型（1）即SCMM。

(1)

2. Xt-a对Yt的总效应评估模型：在模型（1）的基础上，将交互项、基线协变量以及与时间有交互作用的协变量均拟合进模型中，模型（1）可以直接拓展成模型（2），模型（2）可用于评价Xt-a（a＝1，2，…，）的总暴露效应。βX1代表Xt-a与Yt之间的总效应。

(2)

3.纳入倾向评分的模型：倾向评分（propensityscore，PS）指在一定协变量的情况下，某个研究对象接受暴露的可能性大小，即。其概括了协变量的作用，可以有效地保证暴露组和对照组之间的均衡性（使两组的各个协变量均衡一致）[8]。PS估计是在不存在Ux的情况下，针对某个研究对象，将暴露因素作为因变量，将暴露的影响因素（协变量）作为自变量建立一个可以计算概率的模型，计算出的概率可以看作是该研究对象接受暴露的可能性大小也称为该研究对象接受暴露的PS[9]。本文主要探讨二分类暴露的总体效应，所以可以通过logistic回归模型计算PS。在SCMM模型中纳入PS是为了控制协变量可能导致的混杂。

(3)
(4)
(5)
 图 1 因果路径图

4. SCMM的参数估计：SCMM的参数估计可以看作是GEE的解。GEE是在广义线性模型的基础上发展起来可以对具有组内相关性的纵向数据进行分析，其要求不同观察对象之间的观测值相互独立，允许同一受试者多次观测值之间存在组内相关。但是，GEE只有在不存在UY以及Yt-1独立于Xt、Lt的情况下才可以对参数进行无偏估计，否则可能会产生偏倚（GEE偏倚）。为了克服这种偏倚，SCMM将Yt-1纳入模型中进行校正来避免这种偏倚。

SCMM的参数就是解释变量的系数β，该参数的确切估计依赖于Ø和α，只有在给定确切的Ø和α估计值后，才能对β进行无偏估计。其中的Ø是离散参数，其确切估计依赖于结局变量的分布类型，在统计软件中体现于连接函数的正确选择；α是相关系数参数，其确切估计值依赖于作业相关矩阵的选择[12]。所以在进行统计软件分析时需要对连接函数和工作相关矩阵做出正确选择。首先，连接函数的选择依赖于结局变量的分布类型，例如结局变量是满足高斯分布的连续性变量，其连接函数选择恒等函数、满足伯努利分布或者二项分布的二分类变量时选择logit函数、满足泊松分布的计数资料选择log函数。其次是需要选择正确的作业相关矩阵，常见的几种可以解释重复测量间相关性的作业相关矩阵形式主要有可交换相关、独立相关、不确定型相关、自相关、相邻相关等[13]。其选择的方法有两种，第一种是根据数据资料的特点，例如对于重复测量等具有时间顺序特点的资料可以采用自相关和相邻相关、对于测量间无时间顺序关系的资料采用可交换相关、难以确定相关结构的采用不确定型相关[14]。同时，如果在实际操作中没有确定作业相关矩阵，软件初始默认采用独立作业相关矩阵，其在迭代运算中自动对矩阵进行更新。第二种方法是针对数据本身的特点，通过准似然独立准则（Quasi-Likelihood under Independence Model Criterion，QIC）对模型进行判定[14-15]，该准则不仅可以用于作业相关矩阵的选择，还可以用于协变量的筛检从而对模型进行优化，该方法可以直接在统计软件中操作，其判断的标准是其统计量的估计值，其值越小说明模型拟合越好。

Keogh等[6]利用一个假设的“200例个体随访5次”的随机数据，利用模型进行模拟研究。将单个模拟数据集的生成过程重复1 000次，形成1 000个模拟数据集并分别用SCMM、MSM对暴露的总效应进行估计。对同一模型估计效应时所产生的1 000个偏倚进行统计分析，包括偏倚的估计值（Bias）、95%CI、标准差（s），应用这些统计指标对不同模型进行比较。

 [1] Robins JM, Hernán MA, Brumback B. Marginal structural models and causal inference inepidemiology[J]. Epidemiology, 2000, 11(5): 550-560. DOI:10.1097/00001648-200009000-00011 [2] Arah OA, Sudan M, Olsen J, et al. Marginal structural models, doubly robust estimation, and bias analysis in perinatal and pediatric epidemiology[J]. Paediatr Perinat Epidemiol, 2013, 27(3): 263-265. DOI:10.1111/ppe.12049 [3] Zheng WJ, Luo ZH, van der Laan MJ. Marginal structural models with counterfactual effect modifiers[J]. Int J Biostat, 2018, 14(1). DOI:10.1515/ijb-2018-0039 [4] 田丹平, 张敏. 边际结构模型基本原理及其应用实例介绍[J]. 中国卫生统计, 2014, 31(4): 725-728. Tian DP, Zhang M. The basic principle and application examples of marginal structure model are introduced[J]. Chin J Health Stat, 2014, 31(4): 725-728. [5] Cole SR, Hernan MA. Constructing inverse probability weights for marginal structural models[J]. Am J Epidemiol, 2008, 168(6): 656-664. DOI:10.1093/aje/kwn164 [6] Keogh RH, Daniel RM, van der Weele TJ, et al. Analysis of longitudinal studies with repeated outcome measures:adjusting for time-dependent confounding using conventional methods[J]. Am J Epidemiol, 2018, 187(5): 1085-1092. DOI:10.1093/aje/kwx311 [7] Newsome SJ, Keogh RH, Daniel RM. Estimating long-term treatment effects in observational data:A comparison of the performance of different methods under real-world uncertainty[J]. Stat Med, 2018, 37(15): 2367-2390. DOI:10.1002/sim.7664 [8] Deb S, Austin PC, Tu JV, et al. A review of propensity-score methods and their use in cardiovascular research[J]. Can J Cardiol, 2016, 32(2): 259-265. DOI:10.1016/j.cjca.2015.05.015 [9] Lee J, Little TD. A practical guide to propensity score analysis for applied clinical research[J]. Behav Res Ther, 2017, 98: 76-90. DOI:10.1016/j.brat.2017.01.005 [10] Vansteelandt S, Daniel RM. On regression adjustment for the propensity score[J]. Stat Med, 2014, 33(23): 4053-4072. DOI:10.1002/sim.6207 [11] Elze MC, Gregson J, Baber U, et al. Comparison of propensity score methods and covariate adjustment:evaluation in 4 cardiovascular studies[J]. J Am Coll Cardiol, 2017, 69(3): 345-357. DOI:10.1016/j.jacc.2016.10.060 [12] Wang YG, Fu LY. Selection of working correlation structure in generalized estimating equations[J]. Stat Med, 2017, 36(14): 2206-2219. DOI:10.1002/sim.7262 [13] Liang KY, Zeger SL. Longitudinal data analysis using generalized linear models[J]. Biometrika, 1986, 73(1): 13-22. DOI:10.1093/biomet/73.1.13 [14] 朱玉, 王静, 何倩. 广义估计方程在SPSS统计软件中的实现[J]. 中国卫生统计, 2011, 28(2): 199-201. Zhu Y, Wang J, He Q. Implementation of generalized estimation equation in SPSS statistical software[J]. Chin J Health Stat, 2011, 28(2): 199-201. DOI:10.3969/j.issn.1002-3674.2011.02.031 [15] 冯丽云, Cui J. 纵向数据准似然独立准则在GEE模型中的应用[J]. 中国卫生统计, 2008, 25(4): 369-372. Feng LY, Cui J. Application of quasi-likelihood independence criterion in GEE analyses of longitudinal data[J]. Chin J Health Stat, 2008, 25(4): 369-372. DOI:10.3969/j.issn.1002-3674.2008.04.010