西安交通大学公共卫生学院流行病与卫生统计学系, 西安 710061
收稿日期: 2022-02-10
基金项目: 国家重点研发计划(2017YFC0907200,2017YFC0907201);国家自然科学基金(82103944);陕西省科学技术厅自然科学基础研究计划一般项目(2020JQ-090)
代表西北区域自然人群队列项目协作组
Application of isotemporal substitution model in epidemiological research
Department of Epidemiology and Health Statistics, School of Public Health, Xi'an Jiaotong University, Xi'an 710061, China
for the Regional Ethnic Cohort Study in Northwest China Collaborative Group
Fund program: National Key Research and Development Program of China (2017YFC0907200, 2017YFC0907201); National Natural Science Foundation of China (82103944); Natural Science Basic Research Plan of the Shaanxi Province (2020JQ-090)
行为生活方式对包括慢性病在内的健康结局的影响日益受到关注[1]。身体行为包括体力活动、静坐行为和睡眠[2]。在以往的身体行为研究中,研究者通常将一天(24 h)中不同类型的体力活动、静坐行为和睡眠分别视为相互独立的影响人体健康的因素展开分析[3-5]。但是,一天中可被分配给工作、饮食、睡眠以及可以自由支配的时间是有限的,不同身体活动时间之间存在相互依赖及影响的关系,某一项身体行为所用时间的增加会相应地导致用于另一种身体行为时间的减少。从单一维度探讨身体行为对健康的影响,忽视了体力活动、静坐行为、睡眠等行为变量之间的相互关联以及对健康结局的综合影响,可能导致研究结果与实际情况之间出现偏差[6]。为了更好地探讨不同类型的体力活动时间与健康效应的关系,2009年美国哈佛大学公共卫生学院Mekary等[6]将营养流行病学中的等能量替代模型理论引入身体行为研究中[7],首次提出了等时替代模型(isotemporal substitution model,ISM),并应用于以护士健康队列为代表的大型流行病学研究现场,对身体行为与体重、抑郁等健康结局的关联进行研究,体现了ISM在分析身体行为与健康结局的关系时的独特优势。自此ISM在人群健康研究,特别是大型队列研究中得到广泛应用[8-9]。本文系统阐述ISM的基本原理与研究分析步骤,并以实例展示ISM在量化身体活动健康风险研究中的应用,以期为国内身体行为相关的流行病学研究提供参考。
对象与方法
1. 研究对象:使用2018年9月至2019年5月西北区域自然人群队列研究陕西省人群基线调查数据,研究详细信息见文献[10]。排除标准:①日常体力活动受限者(n=4 736);②妊娠期女性(n=1 591);③不合逻辑的异常值(例如夜间睡眠时长超过24 h、每天工作时长超过24 h、每周工作天数超过7 d、每天体力活动、静坐行为及睡眠时间总和超过24 h者)(n=15 832);④体力活动相关数据缺失者(n=1 594)。最终纳入24 272名研究对象。
2. 研究内容:体力活动包括工作、交通、休闲以及家务。根据对应的代谢当量(MET)对体力活动进行分类[11]:轻度体力活动(LPA,1.5~2.9 MET),中高强度体力活动(MVPA,≥3.0 MET)[12]。静坐行为指以坐姿或斜躺姿势时能量消耗≤1.5 MET为特征的任何清醒行为[13-14]。理想状态下,统计模型应当包括研究对象所有日常生活的数据,包括锻炼、工作、睡觉的时间,但由于无法获得所有此类数据,因此在本研究中将进行不同类型的体力活动与静坐行为的时间总和作为“总活动时间”。研究主要结局为基线调查中研究对象自报的主要心血管不良事件(MACE),在研究中被定义为非致死性卒中以及非致死性心肌梗死[15]。
3. ISM方法介绍:近年来,随着对身体行为与健康关系研究的逐渐深入,相关工具和方法也在快速发展[6]。本文拟通过单一活动模型(single-factor model)、分割模型(partition model)以及ISM介绍ISM在模型假设与分析结果的解释中的特点与优势。见表 1。
单一活动模型不考虑其他活动类型,仅单独评价每种体力活动类型与健康结局之间的关系,没有考虑到总体力活动时间。简化模型(以静坐行为为例):
模型中暂未控制其他混杂因素,式中SB表示静坐行为时长(单位:h/d)。f(y)为结局变量,β0为截距项,β1为行为变量的系数,表示行为变量时长每变化一个单位对健康结局影响的效应量。单一活动模型理论假设简单,实际操作便捷,是身体行为相关流行病学领域典型的模型。但该模型仅考虑某种身体行为与健康结局的关系,分析过程中不对其他身体行为类型及时间进行控制,所得结果不一定是某种行为变量的独立效果,结果解释存在局限性。
研究者考虑到多种体力活动间可能存在的影响,提出了分割模型,该模型将所有类型的体力活动以及协变量纳入到模型中,评价每种活动类型的时间变化对健康结局的影响。简化模型:
此模型中暂未控制其他混杂因素,式中SB表示静坐行为时长(单位:h/d),LPA表示轻度体力活动时长(单位:h/d),MVPA表示中高强度体力活动时长(单位:h/d)。f(y)为结局变量,β0为截距项,β1~β3是各行为变量的系数,表示在保持其他类型活动不变的情况下,增加该种类型的活动时间对健康结局影响的效应量。分割模型将身体行为总时间进行拆分,将各部分身体行为时长同时作为自变量纳入多元回归模型,是目前广为应用的模型。但是,在分割模型中,即使研究关注的在某种身体行为上花费的时间与健康结局有关联,仍然无法确认这种关联是否特异地来自于研究所关注的身体行为,还需要对花费在不同身体行为时间的效应进行比较。
研究者将营养流行病学中的能量替代的分析思路引入身体行为流行病学研究中,提出了ISM。对于每个个体来说,一天的总时长是固定且有限的,参与了一项体力活动将会导致不参与另一项体力活动或花费在另一项体力活动上的时间减少[6]。基于这一理论基础,该模型采用多元回归线性模型建立虚拟分析框架[16],尝试在相同的时间内,用一种体力活动类型去替代另一种体力活动类型,从而观察一种类型的活动时间去替换另一种类型的活动时间对健康结局的影响效应量。简化模型(以相同时间的MVPA及LPA替代静坐行为为例):
模型中暂未控制其他混杂因素,其中LPA表示轻度体力活动时长(单位:h/d),MVPA表示中高强度体力活动时长(单位:h/d),TA表示总活动时间,为花费在LPA、MVPA以及静坐行为上的时长总和(单位:h/d)。f(y)为结局变量,β0为截距项,β4表示从模型中剔除的身体行为(本研究中为静坐行为)的系数,β2和β3表示在保持总活动时间不变的情况下,用一种类型的活动去替换另一种类型的活动对健康结局影响的效应量。
从模型公式可以看出,ISM和分割模型在数学上是等价的2种模型,但是在实际应用中对于这2种模型的解释并不相同[17]。ISM采用的数据分析方法是以多元线性回归分析为核心,将总活动时间纳入模型,直接估计了进行一种活动类型而不是另一种活动类型的“等时”效应。分割模型只估计了不受其他活动类型影响的每种活动类型对健康结局的效应值,既没有考虑到不同活动类型时间之间的依赖性,也没有控制总活动时间,所以并不是一种“等时”比较,因此所观察到的关联可能会存在偏倚[6]。
4. 统计学分析:利用Pearson相关系数评估不同类型身体行为时间之间的相关性。采用logistic回归,使用单一活动模型、分割模型以及ISM分析体力活动与MACE的关联。所有的OR值及其95%CI均校正了社会人口学因素(年龄、性别、居住地区、家庭年收入、最高文化程度)以及生活行为因素(吸烟、饮酒、新鲜水果摄入情况、自评健康状况)。使用1 h/d为等时替代分析单位,分别探索每天将1 h MVPA及LPA替代1 h静坐行为得到的健康效益。所有分析均使用SAS 9.4软件进行,以α=0.05作为双侧检验水准。
结果
1. 基本特征:在24 272名调查对象中,年龄(53.81±11.45)岁,BMI为(23.85±3.38)kg/m2,其中女性15 958人(65.75%)。全人群中,有6 812人(28.22%)报告自评健康状况良好。按照四分位数对总活动时间进行分组,相较总活动时间最低的分组(< 6 h/d),总活动时间最高的分组(≥13 h/d)更倾向于为男性、年龄较低、吸烟、饮酒、自评健康状况良好,非传染性疾病(脑卒中、高血压、急性心肌梗死和糖尿病)的患病较少。见表 2。
2. 行为变量时间之间的相关性:不同类型体力活动时长与静坐行为时长之间的相关性较弱,MVPA的时长和总活动时间之间较强的相关性提示了可能会存在潜在的混淆(Pearson相关系数为0.69,P < 0.001)。见表 3。进一步进行共线性诊断显示最大的方差膨胀因子为1.10,各变量之间不存在多重共线性。
表 3 不同类型身体行为时间的Pearson相关系数
3. 评估行为变量与健康结局关系的3种模型结果:在单一活动模型中,校正了社会人口学因素以及生活行为因素后,MVPA与降低患MACE的风险相关(OR=0.97,95%CI:0.94~0.99,P=0.013),静坐行为与升高患MACE的风险相关(OR=1.05,95%CI:1.01~1.09,P=0.015),LPA未观察到有统计学意义的关联(P > 0.05)。
在分割模型中,保持其他变量不变,校正了社会人口学因素以及生活行为因素后,每增加1 h的MVPA与降低3%患MACE的风险相关(OR=0.97,95%CI:0.94~1.00,P=0.022),LPA与静坐行为均未观察到有统计学意义的关联(P > 0.05)。
在ISM中,校正了社会人口学因素以及生活行为因素后,用1 h的MVPA去替代相同时间的静坐行为与降低6%患MACE的风险相关(OR=0.94,95%CI:0.89~0.99,P=0.024)。用1 h/d的静坐行为替代相同时间的MVPA与增加5%患MACE的风险有关(OR=1.05,95%CI:1.01~1.10,P=0.018)。见表 4。
表 4 行为变量及其改变对患主要心血管不良事件的影响
讨论
本研究以西北地区自然人群队列中的陕西省人群为例,探索不同类型的体力活动以及静坐行为的替代与MACE患病风险的关系,展示了ISM的基本原理以及在实际分析中的应用步骤,发现ISM结果具有良好的可解释性和应用价值。
由于数据限制,本研究存在局限性:①本研究使用西北自然人群队列陕西省人群的基线数据,为横断面研究,身体行为变量之间的相互替代与心血管疾病发病的因果关联仍需进一步验证;②纳入本研究的人群和被排除人群之间基本特征存在差异,可能会导致结果存在偏倚;③身体行为相关变量以及结局信息的获取均来自研究对象自报,另外,协变量的选择多来自前期已发表文章,对于协变量之间的关系探索尚不足,可能会存在研究未测量或潜在协变量,导致结果存在偏倚,向外推广需谨慎。
ISM的思想最初来源于营养流行病学中的等能量替代模型[7],可以在纵向研究中用反事实因果推断的思想来进行因果推断。反事实框架理论是指通过设定与现实情况相反的条件,以确定变量之间的因果关系,使个体将事件真实现存状态与假设的、希望的理想状态进行比较的过程[18]。在ISM框架下明确提出了反事实这一思想,具体来说,假设一位研究对象每天有1 h花费在MVPA上,6 h花费在静坐行为上,一段时间后发生某个健康结局,但如果该研究对象每天减少1 h的静坐行为,用1 h的MVPA来替代的话,带来的健康效益即为该研究对象的潜在结局(或反事实结局)。在反事实因果推断过程中,因果关系的效应值估计的准确性与替代的选择息息相关[19]。因此,在实际应用中,ISM需满足以下条件[20-21]:①可供替代的亚类行为变量必须是明确已知的总的身体行为的组成成分。例如在本研究中,身体行为(除睡眠)被分为LPA、MVPA和静坐行为,或在营养流行病学中将总能量的来源分解为植物性蛋白质与脂肪、动物性蛋白质与脂肪以及碳水化合物3个部分。②其是一种线性模型,所以在应用前需要通过单一活动模型或分割模型中判断行为变量与健康结局的关系。如果行为变量时间与健康结局之间存在非线性关系,可以按照截断值进行分层的等时替代分析。
ISM主要有以下优点:①能够具体量化不同身体行为相互替换后与健康结局之间的关系,在本研究中,用1 h的MVPA替代1 h的静坐行为时,患MACE的风险降低6%;②与单一活动模型和分割模型相比,ISM可以提供更为直观的不同身体行为时间的分配模式以及与健康结局之间的关系,为制定更有积极影响的身体行为计划提供建议;③在目前已有的研究中,ISM多被应用于多因素线性回归[6, 20, 22]和Cox比例风险回归模型[21, 23]中,但是由于ISM只是改变了纳入模型的变量,适用于多种回归分析,同时对统计学分析软件没有特殊要求,通用性较高。
ISM存在不足[6, 21]:①研究者需要注意对模型中不同变量前系数的合理解释;②仅适用于暴露因素为连续性变量的情况,当暴露因素为分类变量时无法应用ISM;③利用ISM得到行为变量与健康结局的关联,仅反映了从统计模型得出的行为变量时间的重新分配,而不是行为变量实际变化的关联;④可能会存在多重共线性,造成回归系数变动,影响结果的解释。
ISM为研究者了解不同身体行为之间的相互关系以及其与健康结局之间的关系提供了新角度与新方法,目前已应用于体力活动、静坐行为以及睡眠与健康结局的关联性研究中,包括死亡率、心脏代谢生物标记物、肥胖等[24-26]。但是,当前利用ISM进行分析的研究仅包含体力活动与静坐行为的替代效应,较少涉及睡眠时长,同时,大多数研究仅为横断面研究,高质量的纵向研究仍不足,这也为后续的研究设计提供了方向[27]。
有研究人员提出,在昼夜节律中时间是有限的,包括睡眠、静坐行为、LPA以及MVPA,花费在这些身体行为上的时间应该为相互依赖的相对时间量,其总和为24 h,被视为一个固定常量,可以将花费在这些行为上的时间视为成分数据进行分析[28]。虽然花费在这些行为上的时间比例在个体内部和个体之间,不同的人口群体和地区之间可能有很大不同,但是时间的总和为1,即100%,任何一个变量的改变都会引起其他变量的相应变化[29]。因此,在真实空间中无约束数据适用的统计方法(多元线性回归,包括Mekary等[6]提出的ISM)不适用于受约束且非负数的成分数据。基于成分数据属性,Chastin等[28]引入了成分等时替代模型(compositional isotemporal substitution model),以身体行为成分作为解释变量,健康结局作为响应变量,将等距对数比数据转换和变化预测矩阵应用于数据处理过程中,进一步使用标准回归统计方法进行模型拟合,然后将结果转换回原始单位用以探究所有行为的相对分布的综合影响以及将时间从一种行为转移到另一种行为的影响。相较于Mekary等[6]提出的ISM,成分等时替代模型的优势主要在于:①相对解决多重共线性的问题;②充分体现花费在身体行为上的时间的相互依赖性,即每一种身体行为与健康结局之间的相关性会受到不同身体行为所占时间份额的影响;③在标准回归模型中,系数的变化可以直接解释为与解释变量相关的响应变量的变化,在成分数据分析中可以利用变化预测矩阵量化相对于其他身体行为,某种身体行为与健康结局之间以及用其他身体行为替代一种身体行为对健康结局的影响。Dumuid等[16]进一步提出,将花费在某种身体行为的时间重新分配到另一种身体行为上(例如本研究中的1 h/d)的概念是虚假的,如果花费时间按照比例进行转换分析,那么重新分配的持续时间也可以按照比例表示。上述的ISM在当前身体行为流行病学研究中均有使用,研究者可以根据需求选择合适的模型进行分析[27]。另外,目前提出的成分等时替代模型是基于线性模型构建的,可能会对模型拟合效果有限制,未来可以通过构建更具有灵活性的模型探究身体行为与健康结局之间的非线性趋势[30]。
综上所述,随着身体行为相关流行病学的发展,ISM提供了一种新的研究方法,在控制总活动时间的情况下,通过模拟用相同时间的一种类型的活动替代另一种活动来评估其对健康结局的影响,为研究者提供新的研究思路与研究范式,能够为公共卫生政策的制定和身体行为指南的完善提供多角度的证据支撑。
利益冲突
所有作者声明无利益冲突
作者贡献声明 王予童:研究设计、数据整理、统计分析、文章撰写、论文修改;刘卉萌、曹岁霞、徐坤、张彬艳:研究设计、数据整理、论文修改;霍亚婷、刘静春:研究设计、论文修改;曾令霞、党少农:项目管理、研究指导;颜虹、米白冰:项目管理、研究设计、研究指导、论文修改、经费支持