中文临床医学期刊中多因素logistic回归文献报告质量评价

引用本文

张英英, 周晓彬, 张健, 陆彬. 中文临床医学期刊中多因素logistic回归文献报告质量评价[J]. 中国公共卫生, 2016, 32(5): 720-724. 复制到剪切板

ZHANG Ying-ying, ZHOU Xiao-bin, ZHANG Jian, et al . Evaluation on presentation quality of multivariable logistic regression results published in Chinese clinical medicine journals[J]. Chinese Journal of Public Health, 2016, 32(5): 720-724. 复制到剪切板

中文临床医学期刊中多因素logistic回归文献报告质量评价

张英英¹, 周晓彬¹, 张健², 陆彬¹

1. 青岛大学医学院流行病与卫生统计学教研室, 山东青岛 266021 ;
2. 青岛大学医学院药学院

收稿日期: 2015-06-03; 数字出版日期: 2015-10-08 16:32.

作者简介: 张英英(1989-),女,山东诸城人,硕士在读,研究方向:医学统计学方法。

通讯作者: 周晓彬,E-mail:xiaobin_zhou@126.com

摘要: 目的评价中文临床医学期刊中多因素logistic回归(MLR)文献的报告质量,为作者、审稿人和杂志编辑人员合理应用MLR和正确报告研究结果提供参考依据。方法计算机检索中国生物医学数据库、维普数据库、万方数据库和中国期刊全文数据库,并结合手工检索收集2010年1月1日-2014年12月31日在《中华心血管病杂志》、《中华肿瘤杂志》、《中华神经医学杂志》、《中华儿科杂志》、《中华消化外科杂志》5种中文临床医学杂志发表的281篇MLR文献,评价其MRL的应用及结果报告质量。结果 5种中文临床医学杂志发表的281篇MLR文献中,报告质量得分最高为9分,最低为1分,有75.44%的文献评分<6分,23.84%的文献评分在6~8分;符合率>50%的指标分别为:报告自变量选择依据(67.62%)、报告自变量筛选方法(54.80%)、报告OR值及95%CI(85.41%)、报告统计软件及版本(97.15%)和阳性样本数/自变量个数≥10(77.58%);符合率<10%的分别为:检验自变量间交互作用(3.91%)、检验自变量间多重共线性(1.78%)、模型评价效果(9.96%)、检验异常值(3.56%)、统计学家和流行病学家的参与(0.36%)、和样本量估计方法(0.71%);自变量中含有连续变量或有序分类变量的173篇文献中,有2篇(1.16%)提到检验自变量与logit(P)的线性关系。结论 5种中文临床医学杂志MLR文献总体报告质量较低,杂志社应制定MLR文献的统计学报告指南,鼓励研究者与统计学家和流行病学家合作,提高临床医学MLR文献的报告质量。

关键词：多因素logistics回归(MLR) 文献质量评价临床医学期刊

Evaluation on presentation quality of multivariable logistic regression results published in Chinese clinical medicine journals

ZHANG Ying-ying¹, ZHOU Xiao-bin¹, ZHANG Jian², et al

Department of Epidemiology and Health Statistics, Medical College of Qingdao University, Qingdao, Shandong Province 266021, China

Abstract: Objective To evaluate presentation quality of multivariable logistic regression(MLR) results published in major Chinese clinical medicine journals and to provide references for correct presentation of the MLR results to authors, reviewers, and editors. Methods Totally 281 articles with MLR result presentations published from 2010 through 2014 in 5 Chinese clinical medicine journals(Chinese Journal of Cardiology, Chinese Journal of Oncology, Chinese Journal of Neuromedicine, Chinese Journal of Pediatrics, and Chinese Journal of Digestive Surgery) were searched from the Chinese Biomedical Data-Base, VIP Chinese Science and Technology Periodical Database, China National Knowledge Infrastructure, and Wanfang database with computer retrieval combined with manual searching.All the articles were evaluated with established 15 criteria for appropriate usage and results reporting of MLR analysis. Results The score of presentation quality of MLR results of all the articles ranged from 1 to 9, with a median of 5, and 75.44%(212) of the articles had the score of less than 6.The items properly presented by more than 50% of the articles were name and version of statistics software used(97.2%), the value of the odds ratio and its 95% confidence interval(85.4%), the number of required samples and independent variables(77.6%), the basis of independent variables selection(68.0%), and fitting procedures(54.8%);while the items properly presented by less than 10%of the articles were the participation of statisticians and epidemiologists(0.36%), sample size estimation method(0.71%), verification of collinearity among the independent variables(1.78%), verification of outliers(3.56%), verification of interactions(3.91%), and validation and goodness-of-fit(9.96%).The proportions of the articles presenting the data-entry-form, coding of variables, and ethics approval and informed consent were 14.6%, 16.7%, and 29.9%, respectively.For the 173 articles involved with continuous variable or ordinal categorical variable, only 2 presented the verification of the linearity between the statistics of the variables and the value of logit(P). Conclusion The quality MLR results presentation is poor for articles published in five Chinese clinical journals.Editors should develop statistical presentation guidelines concerning MLR and encourage researchers to cooperate with statisticians and epidemiologists to improve the quality of presentation.

Key words: multivariable logistic regression literature quality evaluation clinical medicine journal

logistic回归模型中的自变量可以是连续变量、分类变量或等级变量，其回归系数很容易转化为易于解释的比值比(odds ratio，OR)。因此，多因素logistic回归(multivariable logistic regression,MLR)被广泛应用于医学研究中^{[1, 2, 3]}，主要用于校正混杂因素、筛选相关变量、预测和判别。但在实际应用中如果违反或者忽略了MLR的一些假设、前提条件或自变量赋值不明确，将会导致错误的结果，也会影响读者对结果的正确理解。因此，评价MLR文献的报告质量，发现其中的不足和缺陷，从而提出正确的建议意义重大。有研究表明，在应用模型前深入理解模型固有假设及重要前提条件能提高MLR分析的质量和可靠性^[4]。为评价中文临床医学期刊中MLR文献的报告质量，为作者、审稿人和杂志编辑人员合理应用MLR和正确报告研究结果提供参考依据，本研究通过计算机检索中国生物医学数据库、维普数据库、万方数据库和中国期刊全文数据库，并结合手工检索收集2010年1月1日—2014年12月31日在《中华心血管病杂志》、《中华肿瘤杂志》、《中华神经医学杂志》、《中华儿科杂志》、《中华消化外科杂志》5种中文临床医学杂志发表的281篇MLR文献，评价其MRL的应用及结果报告质量。结果报告如下。

1 资料与方法 1.1 资料来源

通过计算机检索中国生物医学数据库、维普数据库、万方数据库和中国期刊全文数据库，并结合手工检索收集2010年1月1日—2014年12月31日在中国科学引文数据库影响因子(impact factor，IF)较高的《中华心血管病杂志》(IF=0.506 5)、《中华肿瘤杂志》(IF=0.447 4)、《中华神经医学杂志》(IF=0.672 9)、《中华儿科杂志》(IF=0.766 9)、《中华消化外科杂志》(IF=0.731 8)等5种中文临床医学杂志上发表的281篇MLR文献。

1.2 方法

本研究参照相关文献^{[5, 6, 7]}制定了15项指标用于评价文献中 MLR的应用及结果。15项指标分别为:(1)是否报告自变量选择依据。多因素分析时研究者应报告考虑将某些因素作为自变量纳入模型中依据，常见的选择依据有基于专业知识和现有的研究和通过单因素分析发现与结局变量的相关性有统计学意义的因素作为自变量2种。(2)是否报告自变量筛选方法。当进行MLR时，由于加入了新的自变量，可能使单因素分析时有统计学意义的因素与结局变量之间的相关关系增强或减弱，甚至可能变得无统计学意义，因此需要剔除那些在多因素分析中无统计学意义的自变量来使模型更优。筛选自变量时所用的检验方法包括条件参数估计似然比检验、最大偏似然估计的似然比检验和Wald χ²检验；筛选原则包括前进法、后退法和逐步法。报告了检验方法或筛选原则其中之一就认为符合此标准。(3)是否报告自变量的赋值方式。如果不报告自变量的分类赋值方式读者会将自变量看作连续变量可能导致错误的理解OR值，只有报告了自变量的赋值方式或在报告OR值时指明对照^[8]，读者才能正确理解OR值的含义。有时论文中并未明确列出自变量赋值，但是在报告OR值时列出了自变量详细的分类并指明了参照组，此种情况认为是进行了变量赋值。(4)是否报告检验了自变量之间可能存在的交互作用。在多因素模型中，某一自变量与结局变量之间的关系受其他自变量影响的现象称为自变量间的交互作用，它掩盖了自变量与因变量之间的真实联系。当根据专业知识或现有研究怀疑两变量存在交互作用时，应该检验并报告交互作用的统计学意义和对模型的影响。(5)是否报告检验了自变量间可能存在的多重共线性。多重共线性指2个自变量之间存在高度的相关性。通常在进行线性回归模型时会考虑到是否存在自变量之间的多重共线性，MLR中仍然可能存在多重共线性的情况，其表现与线性回归中类似。(6)是否报告OR值及其95%confidence interval(95%CI)。(7)是否报告模型评价(拟合优度和预测效果)。常用的拟合优度检验方法包括Pearson拟合优度检验、deviance拟合优度检验、似然比检验和HOSMER-LEMESHOW检验。模型效果的判断指标有伪决定系数、预测正确率和受试者工作特征曲线(receiver operating characteristic curve，ROC)。严格意义上讲，拟合优度检验和预测效果评价是递进的2个概念，本研究对其中之一进行了检验就认为满足此标准。(8)是否报告进行了异常值检查。异常值的存在可能导致和掩盖自变量间的多重共线性，从而影响模型的参数估计。用于检测离群点的方法有Pearson残差和deviance残差，而衡量离群点对回归模型影响程度的指标有Cook距离和difference in beta statistic(DFBETA)指标^[9]。(9)是否报告统计软件及版本。统计软件版本更新迅速并不断合并新的方法和选择，因此，有必要报告统计软件及版本，这也有助于其他研究者重建或检验MLR模型。(10)每个自变量是否有充足的样本量(阳性结果数/自变量个数≥10)。只有在足够样本量的基础上建立的回归模型才具有良好的稳定性和应用价值，当模型包含了过多的自变量，而样本中的阳性结果数又较少时，所建立的回归模型称为过度拟合模型，其预测结果是不可靠的。MLR模型要求样本中阳性结果数至少是最终进入模型的自变量个数的10倍，条件logistics 回归要求对子数至少是最终进入模型的自变量个数的20倍。(11)作者中是否有统计学和流行病学家专业人员。统计方法与专业知识的正确结合可以尽可能地避免偏倚，减少统计分析和报告缺陷。(12)是否报告样本量估计方法。常用的有经验法和公式计算法，未事先估计好所需样本量可能低估或高估实验效果，导致模型过度拟合,但是研究过程中常常容易被研究者忽视，因此，样本量的估算方法应引起研究者的注意。(13)是否报告数据录入方式。(14)是否报告伦理学审批及知情同意。(15)是否报告考察自变量(连续变量或有序分类变量)与logit(P)的线性关系。对于有序分类变量，如果每增加1个等级，logit(P)的增加幅度相同，可以将该变量作为连续型变量处理。当不满足以上假设时，可能得到错误的模型，造成错误的引用^[4]。可以先将该有序变量分别以哑变量和连续型变量的方式引入模型，观察回归系数间是否存在等级关系，并对2个模型进行似然比检验，如果似然比检验无统计学意义，且回归系数间存在等级关系，可以将改自变量作为连续型变量引入模型，否则应以哑变量的方式引入模型。上述每项标准如果满足赋值为1，不满足则赋值为0，计算每篇文章的总得分。由于有些模型的自变量中不包含定量变量或有序分类变量，故第15项标准不计入总得分。

1.3 统计分析

应用SPSS 19.0软件进行统计分析。计数资料以构成比和率表示，采用χ²检验和Fisher确切概率法检验进行比较；计量资料以中位数(四分位数间距)表示，采用多组独立样本的Kruskal-Walis H检验比较5种杂志评分的差异。以P＜0.05为差异有统计学意义。

2 结果 2.1 5种中文杂志质量评分情况

5种中文临床医学杂志共检索出MLR文献281篇，其中，《中华心血管病杂志》106篇，《中华肿瘤杂志》51篇，《中华神经医学杂志》67篇，《中华儿科杂志》29篇，《中华消化外科杂志》28篇。报告质量得分最高为9分，最低为1分，中位数(四分位数间距)为5(1)分，有75.44%(212/281)的文献评分＜6分，23.84%(67/281)的文献评分在6~8分。《中华心血管病杂志》、《中华肿瘤杂志》、《中华神经医学杂志》、《中华儿科杂志》、《中华消化外科杂志》中位数(四分位数间距)分别为5(2)、4(1)、4(2)、4(3)、4.5(1)分，5种杂志文献评分差异有统计学意义(H=11.748，P=0.019)。

2.2 5种中文临床医学杂志MLR文献报告质量评价(表 1)

表 1 5种中文临床医学杂志中MLR文献报告质量评价比较

5种中文临床医学杂志发表的281篇MLR文献中，有190篇文献(67.62%)报告了自变量选择依据，其中有54篇是根据已有的研究和经验选择自变量，107篇选择单因素检验有统计学意义因素作为自变量，19篇采用了以上2种方法，10篇全部纳入；有154篇文献(54.80%)报告了自变量的筛选方法，同时报告检验方法的仅22篇；有47篇文献(16.73%)报告了自变量的分类及赋值方式；有11篇文献(3.91%)报告了自变量之间的交互作用并进行检验，检验方法均为在模型中纳入乘积项作为自变量，分离出交互作用并检验其对模型的影响；有5篇文献(1.78%)报告了多重共线性，并用BKW准则对共线性程度进行判断；有240篇文献(85.41%)报告了此标准，其中报告每个自变量的OR值及其95%CI和P值的有230篇，报告每个自变量的OR值及其95%CI的有10篇；有28篇文献(9.96%)对所建立的MLR模型进行评价，其中有5篇文献(Hosme-Lemeshow法3篇、似然比法2篇)对模型进行拟合优度检验，19篇文献(计算模型的正确率4篇、计算ROC曲线15篇)评价了模型的预测效果，4篇采用拟合优度和C检验；有10篇文献(3.56%)对数据中可能存在的离群点进行了检验；有273篇文献(97.15%)报告了统计软件及版本，应用最多的统计软件为SPSS，其次为SAS；有218篇文献(77.58%)满足阳性结果数/自变量个数≥10的标准，比值的变化范围在1.50~2 459.75，其中6篇条件logistics回归满足阳性结果数/自变量个数＞20，比值变化范围在25.00~183.43；有1篇文献(0.36%)报告了统计学家及流行病学家的参与；有2篇文献(0.71%)报告了样本量的估计方法；有41篇文献(14.59%)报告了数据录入方式，其中《中华心血管病杂志》中有23篇，另外4种杂志报告较少；有84篇文献(29.89%)报告经过了伦理学审批及知情同意。自变量中含有连续变量或有序分类变量的173篇文献中，有2篇(1.16%)提到检验自变量与LogitP的线性关系；其中，《中华心血管病杂志》、《中华肿瘤杂志》、《中华神经医学杂志》、《中华儿科杂志》、《中华消化外科杂志》5种杂志满足自变量与结局变量线性关系的分别占2.6%(2/77)、0.0%(0/26)、0.0%(0/42)、0.0%(0/14)、0.0%(0/14)，差异无统计学意义(P>0.05)。

3 讨论

早在1993年，Concato等^[10]首次提出医学研究领域多元统计分析的报告质量问题，发现logistic回归分析中6项重要假设被忽视或未报导，并建议改进医学研究中多变量分析的报告和应用指导。随后的20年中，涌现了大量此类文献^{[5, 6, 11]}，但MLR文献的报告质量参差不齐。近几年，国外logistic回归文献质量明显提高，但在共线性检验、异常值检验、报告指南或标准以及统计学家参与等方面仍存在不足^{[4, 7, 12]}。国内学者多集中在理论研究，孙尚拱^[13]讨论了样本大小对回归模型中参数显著性的影响及配对资料变量的筛选方法；刘韵源等^[14]发展了广义Ad-logistic回归理论；刘启军^[15]研究发现，logistic回归分析中常见的问题包括样本含量不足、忽视了连续变量或有序分类变量与logit(P)的线性关系的判断、未进行拟合优度检验及多重共线性的检验等，并提出了多重共线性检验及识别样本中异常值的方法。由此可见，通过本研究制定的15项标准评价MLR文献的统计学质量是客观可行且重要的。

本研究中MLR文献近一半指标的符合率＞50%，但总体报告质量较差。如，自变量的分类赋值符合率为16.73%，低于Mikolajczyk等^[11]研究的83%和Kumar等^[7]研究的41.28%；统计学家和流行病学家参与的符合率仅为0.36%；样本量估算方法符合率为0.71%；自变量间交互作用的符合率(3.91%)也低于Ottenbacher等^[5]研究的39%和Kalil等^[12]研究的19%；多重共线性检测和自变量与Logit(P)的线性关系的符合率分别为1.78%和1.16%，虽然与Kumar等^[7]研究的1.83%和0接近，但远低于Ottenbacher等^[5]研究的17%和19%以及 Kalil等^[12]研究的4.7%和25%；异常值检测符合率仅为3.56%。这些内容需要丰富的统计学知识和熟练的软件应用技能，作者和审稿者统计学知识和技能的缺乏及杂志社未制定相应的报告指南可能是导致这些内容报告较少的原因之一。

本研究符合率最高的是报告统计软件及版本和报告统计学显著性，而相对复杂的检验符合率则较低。本研究结果显示，应用最多的统计软件为SPSS，但是SPSS软件的logistic过程中并未提供关于多重共线性的结果输出，解决方法之一是运用相同的因变量与自变量拟合线性回归模型并进行相应的共线性诊断，如果研究者不了解这一点，在运用SPSS软件建立多因素logistic模型时就很可能忽略了多重共线性问题。杨俊英等^[16]和赵宇东等^[17]的研究分别给出了诊断logistics回归共线性的Stata和SAS软件实现过程，虽然未从根本上克服logistics共线性问题，但具有较强的参考价值。本研究中，仅1.78%的文献检验了自变量间可能存在的多重共线性，这可能会得到不稳定的回归系数或者较大的置信区间，甚至会影响自变量的筛选。目前常用的主成分分析、偏最小二乘估计、岭回归等方法虽然在一定程度上克服了多重共线性，但是仍存在各自的缺陷，迫切需要发展更新的、适应性更强的、效果更为理想的处理变量共线性的方法^[18]。

本研究中有10篇文献(3.56%)对异常值进行了检测，但未给出详细分析方法。异常值是超出预期的观测值，可能被认为是一些统计学变异或简单表面有效性或基于临床原因的共识^[19]。MLR模型对异常值非常敏感，它可能导致或掩盖自变量间的多重共线性从而影响模型的稳健性和参数估计^[4]。因此，当异常值出现时应谨慎处理：首先，删除错误收集或记录数据引起的异常值；其次，当异常值正确时，应考虑重要的协变量、交互作用、足够的样本量等问题^[9]；最后，保留和删除该异常值各进行1次研究并对每次研究作完整详尽地陈述，有助于读者得到自己的结论^[12]。

世界各地的研究者普遍未对自变量与结局变量的线性关系进行检测，本研究也仅有2篇文献符合该假设，这可能与统计软件未提供该项检验有关，也可能与对专业知识要求较高等有关。连续协变量很容易通过更灵活的建模方式，如样条回归(或分段回归)、多变量分式多项式^[20]和广义相加模型^[21]解决。然而这些建模方式在统计学上更加复杂，常用统计软件无法实现，医学和公共卫生专家也难于解释和理解。这些问题限制了这些复杂统计学模型的广泛应用，医学领域此标准的符合率非常低^{[5, 7, 22]}。

编辑修正、同行审稿和统计学审稿制度有助于临床医师及研究者合理应用及解释统计学模型。因此建议医学杂志制定针对MLR文献分析的统计学报告指南制定统计学审稿制度以提高论文质量。本研究所选的5种杂志在中文临床医学杂志中影响因子较高，具有较强的代表性，其存在的问题可能同样存在其他期刊中。因此，建议杂志社在论文审理过程中应制定MLR文献的统计学报告指南，鼓励研究者与统计学家和流行病学家合作，提高文献的报告质量。

参考文献

[1]	乔艳, 任骅, 黄莹, 等. 细胞周期素D1基因A870G多态与直肠癌术后同步放化疗急性毒副反应的关系[J]. 中华肿瘤杂志,2013,35 (4) :268–272.
[2]	李华, 周翊峰, 郭红燕, 等. 细胞毒性T淋巴细胞相关抗原4编码区49位点的基因多态性与宫颈癌遗传易感性的关系[J]. 中华肿瘤杂志,2011,33 (9) :681–684.
[3]	钱德富, 樊国丽, 陈平, 等. 体检职工血尿酸水平及相关危险因素分析[J]. 中华心血管病杂志,2013,41 (1) :60–64.
[4]	Kumar R, Chhabra P. Cautions required during planning,analysis and reporting of multivariable logistic regression[J]. Current Medicine Research and Practice, 2014, 4 (1) :31–39 .
[5]	Ottenbacher KJ, Ottenbacher HR, Tooth L, et al. A review of two journals found that articles using multivariable logistic regression frequently did not report commonly recommended assumptions[J]. J Clin Epidemiol, 2004, 57 (11) :1147–1152 .
[6]	Bagley SC, White H, Golomb BA. Logistic regression in the medical literature:standards for use and reporting,with particular attention to one medical domain[J]. Journal of Clinical Epidemiology, 2001, 54 (10) :979–985 .
[7]	Kumar R, Indrayan A, Chhabra P. Reporting quality of multivariable logistic regression in selected Indian medical journals[J]. J Postgrad Med, 2012, 58 (2) :123–126 .
[8]	刘宏杰. Logistic回归模型使用注意事项和结果表达[J]. 中国公共卫生,2001,17 (5) :85–86.
[9]	冯国双, 陈景武, 周春莲. logistic回归应用中容易忽视的几个问题[J]. 中华流行病学杂志,2004,25 (6) :92–93.
[10]	Concato J, Feinstein AR, Holford TR. The risk of determining risk with multivariable models[J]. Ann Intern Med, 1993, 118 (3) :201–210 .
[11]	Mikolajczyk RT, Disilvestro A, Zhang J. Evaluation of logistic regression reporting in current obstetrics and gynecology literature[J]. Obstet Gynecol, 2008, 111 (2 Pt 1) :413–419 .
[12]	Kalil AC, Mattei J, Florescu DF, et al. Recommendations for the assessment and reporting of multivariable logistic regression in transplantation literature[J]. Am J Transplant, 2010, 10 (7) :1686–1694 .
[13]	孙尚拱. Logistic回归的近况与评述[J]. 中国卫生统计,1986,3 (3) :62–65.
[14]	刘韵源, 刘嘉, 胡立胜, 等. 模糊状态风险分析的广义Logistic回归理论与应用*(5)-广义Ad-Logistic回归理论[J]. 中国公共卫生,2001,17 (1) :36–39.
[15]	刘启军. Logistic回归模型及其研究进展[J]. 预防医学情报杂志,2002,18 (5) :417–419.
[16]	杨俊英, 杨海涛. 应用stata软件实现logistic回归的共线性诊断[J]. 中国卫生统计,2005,22 (3) :174–176.
[17]	赵宇东, 刘嵘, 刘延龄, 等. 多元logistic回归的共线性分析[J]. 中国卫生统计,2000,17 (5) :3–5.
[18]	杨梅, 肖静, 蔡辉. 多元分析中的多重共线性及其处理方法[J]. 中国卫生统计,2012,29 (4) :620–624.
[19]	Thiese MS, Arnold ZC, Walker SD. The misuse and abuse of statistics in biomedical research[J]. Biochemia Medica, 2015, 25 (1) :5–11 .
[20]	Sauerbrei W, Meier-Hirmer C, Benner A, et al. Multivariable regression model building by using fractional polynomials:description of SAS,STATA and R programs[J]. Computational Statistics and Data Analysis, 2006, 50 (12) :3464–3485 .
[21]	Rao SJ, Stefanski LA. Regression modeling strategies:with applications to linear models,logistic regression,and survival analysis[J]. Journal of the American Statistical Association, 2003, 98 (461) :257–258 .
[22]	Tanboga IH, Kurt M, Isik T, et al. Assessment of multivariate logistic regression analysis in articles published in Turkish cardiology journals[J]. Turk Kardiyoloji Dernegi arsivi:Turk Kardiyoloji Derneginin yayin organidir, 2012, 40 (2) :129–134 .


中国公共卫生 2016, Vol. 32 Issue (5): 720-724	PDF