﻿ 观察性研究中的logistic回归分析思路
 中华流行病学杂志  2019, Vol. 40 Issue (8): 1006-1009 PDF
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2019.08.025

0

#### 文章信息

Feng Guoshuang.

Logistic regression analysis in observational study

Chinese Journal of Epidemiology, 2019, 40(8): 1006-1009
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2019.08.025

### 文章历史

1. 国家儿童医学中心 首都医科大学附属北京儿童医院 大数据和工程研究中心, 北京 100045;
2. 北京航空航天大学/首都医科大学 北京大数据精准医疗高精尖创新中心, 北京 100083

Logistic regression analysis in observational study
Feng Guoshuang1,2
1. Beijing Children's Hospital, Capital Medical University, National Center for Children's Health, Big Data and Engineering Research Center, Beijing 100045, China;
2. Beijing Advanced Innovation Center for Big Data-Based Precision Medicine, Beihang University/Capital Medical University, Beijing 100083, China
Corresponding author: Feng Guoshuang , Email:glxfgsh@163.com
Fund program: Beijing University and Capital Medical University Advanced Innovation for Big Data-Based Precision Medicine Plan
Abstract: Logistic regression has been recognized as a commonly used method in epidemiological studies. However, in practice, many people only consider 'data' rather than 'study design' as important issue when working on the analysis, which may easily lead to some misleading results and conclusions. Based on the purpose of observational research during the design of the study, this paper discusses the specific ideas in logistic regression analysis, and provides references for the practical application when logistic regression method is used.
Key words: Logistic regression     Case-control study     Cohort study

1. logistic回归:假定有m个自变量x1x2，…，xm，logistic回归模型的基本形式可表达为:

2.病例对照研究中的logistic回归:从数据分析的角度来看，病例对照研究大致有两大类目的:一是探索危险因素，二是验证危险因素。

(1) 以探索危险因素为目的的分析思路:危险因素的探索常见于临床研究中，通常用于研究初期，此时研究者并不清楚哪些因素可能会影响结局的发生，因此先进行初步探索。根据专业知识和经验收集一些可能的指标，然后从中寻找可能对结局影响较大的因素。例如，探索儿童打鼾的危险因素，研究者并无太多的前期基础，只是为了发现可能与儿童打鼾有关的因素，这种情况下会根据文献报道、专业经验等收集一些可能有关的指标，并从中找出与儿童打鼾有关的部分因素。

① 线性问题:由于logistic回归本质上仍属于“线性模型”，因此一定要确认自变量与因变量(logit P)之间是否线性关系，如果不是，需要考虑进行相应的变换，否则可能会产生错误结果。

② 共线性问题:共线性即自变量之间存在高度相关，从而导致结果不可靠[1]。共线性是大多数回归模型都需要考虑的一个问题，一旦发现该问题，需要采取不同措施来解决。常见的解决方案包括删除某一自变量、主成分分析、Lasso回归等。

③ 单因素和多因素的问题:目前危险因素筛选的一种分析思路:先进行单因素分析，将单因素分析中差异有统计学意义(P＜0.05)的变量再纳入多因素分析，选出最终有统计学意义的变量作为危险因素。然而这一思路并非十分可靠，有些情况下可能会出现单因素分析无统计学意义而多因素分析有统计学意义的情况，此时就容易漏掉某些重要的因素。

(2) 以验证危险因素为目的的分析思路:验证危险因素，说明研究者在研究开始时已经有明确的主要研究因素，主要目的是为了验证该因素是不是真正的影响因素。基于这种目的，研究者在设计时会突出主要因素，但同时也会收集其他可能的混杂因素。例如，探索肺癌与吸烟的关系，吸烟是主要研究因素，因此问卷调查中会详细设置各种与吸烟有关的问题。考虑到其他因素可能也会影响肺癌发生，因此调查时也会加入其他有关因素的调查，但这些因素不是研究者关心的，只是为了校正这些因素，以便真正明确吸烟与肺癌的关系。

3.队列研究中的logistic回归:队列研究绝大多数都是为了验证某一危险因素，这是由研究性质决定的。因为队列研究在一开始就需要指定暴露和非暴露，也就相当于确定了主要研究因素。因此，从数据分析角度来讲，队列研究主要是为了排除混杂因素，与前文介绍的思路并无不同。但队列研究在时间顺序上可以证明研究因素发生在前，结局发生在后，因此其验证能力更强。

4.小结:本文介绍了病例对照研究和队列研究中logistic回归分析的不同思路，以及常见的一些应用错误。然而本文的思路并不仅限于logistic回归分析，完全可以推广到其他广义线性模型。例如，队列研究的观察结局如果是计数资料，则可考虑Poisson回归或负二项回归，此时仍需考虑混杂因素的校正问题。因此，本文思路对各种常见的回归模型均有一定借鉴意义，至于模型的选择主要取决于研究结局类型及其分布。

 [1] Mennard S. Applied logistic regression analysis[M]. Newbury Park, California: SAGE Publications, Inc, 2001. [2] 徐飙. 流行病学原理[M]. 上海: 复旦大学出版社, 2007. Xu B. Epidemic theory[M]. Shanghai: Fudan University Press, 2007. [3] Stokes ME, Davis CS, Koch GG. Categorical data analysis using the SASsystem[M]. 2nd ed. Cary, NC: John Willy & Sons, Inc, 2000. [4] 冯国双, 刘德平. 医学研究中的logistic回归分析及SAS实现[M]. 2版. 北京: 北京大学医学出版社,, 2015. Feng GS, Liu DP. Logistic regression analysis and SAS application in medical research[M]. 2nd ed. Beijing: Peking University Medical Press, 2015.