中华流行病学杂志  2016, Vol. 37 Issue (2): 286-290    


Methodological bias and variation of systematic reviews on diagnostic test accuracy
中华流行病学杂志, 2016, 37(2): 286-290
Chinese Journal of Epidemiology, 2016, 37(2): 286-290


投稿日期: 2015-07-09
100191 北京大学公共卫生学院流行病与卫生统计学系
摘要: 目的 分析诊断试验系统综述的方法学异质性来源。方法 通过检索2008年1月1日至2012年12月31日发表在Medline、Embase、Cochrane(CDSR和DARE)数据库中关于诊断试验准确性(DTA)的Meta分析文献,纳入了至少包含10篇原始研究的Meta分析。两名人员独立地对研究特点以及原始研究的数据进行提取,使用混合线性模型对14种潜在的方法学异质性因素来源进行探讨,进而计算出14种异质性因素的诊断比值比(DOR)之比(RDOR)值及其95% CI,从而判断其异质性大小和方向。结果 最终纳入了23篇DTA的系统综述,涵盖550篇原始研究。纳入的550篇原始研究的质量良好。单因素混合线性模型分析显示,"金标准是否足够准确"和"金标准与待检试验是否相互独立"是DTA系统综述的异质性来源。多因素混合线性模型分析显示,金标准不准确的诊断试验,其DOR合并值低于金标准足够准确的诊断试验,RDOR=0.018 6(95% CI:0.001 0~0.358 5);金标准与待检试验不独立的诊断试验,其DOR合并值高于金标准与待检试验相互独立的诊断试验,RDOR=2.396 6(95% CI:1.242 8~4.622 7)。结论 对于诊断试验系统综述,原始研究的金标准是否足够准确、金标准与待检试验是否相互独立为其方法学异质性的来源。
关键词: 诊断试验准确性    系统综述    异质性    
Department of Epidemiology and Bio-statistics, Peking University Health Science Center, Beijing 100191, China
Corresponding author: Zhan Siya,Email:siyan-zhan@bjmu.edu.c
Abstract: Objective To analyze methodological bias and variation of systematic reviews on diagnostic test accuracy(DTA).Methods Meta-analyses on DTA were identified through an electronic search through databases as Medline, Embase and Cochrane between 1 January 2008 and 31 December 2012.Results from Meta-analyses on 10 primary studies were included.Pairs of reviewers worked independently to extract the related data of interest, together with those original data of the primary studies.Mixed linear model was used to investigate the direction and strength of the association among the 14 studies, featuring on estimates of the diagnostic accuracy.Results A total of 23 papers on Meta-analyses with 550 primary studies were included.Results from mixed linear model showed that significant low estimates of diagnostic accuracy in studies unsatisfying "the reference standard would likely to correctly classify the target condition" [relative diagnostic odds ration(RDOR)=0.018 6, 95% CI:0.001 0-0.358 5].Studies whose reference standard were not independent of the index test produced significantly higher estimates of diagnostic accuracy(RDOR=2.396 6, 95% CI:1.242 8-4.622 7).Conclusion Messages as "Is the reference standard likely to correctly classify the target condition?" and "Was the reference standard independent of the index test", were the origin of the methodological bias and variation of systematic reviews on diagnostic test accuracy.
Key words: Diagnostic test accuracy    Systematic reviews    Bias and variation    

在诊断试验准确性(diagnostic test accuracy,DTA)系统综述和Meta分析(合称DTA系统综述)中,除了对各原始研究的效应值进行定量合并以外,探讨其异质性来源也非常重要。有研究表明[1],一些已发表的诊断试验原始研究,由于研究设计的质量缺陷,其质量控制关键点出现漏洞。这一方面可能会引入偏倚,高估或低估诊断试验的准确性,另一方面会使研究之间出现方法学异质性,导致研究间不同的结果。Rutjes等[2]2006年的一项研究结果显示,连续纳入患者以及回顾性收集数据会高估试验结果,依据待检试验纳入患者会低估试验结果。然而迄今为止,针对DTA系统综述的方法学异质性进行探讨的研究仍然匮乏。因此,本文采用两水平多变量的混合线性模型,同时兼顾系统综述层面和原始研究层面的效应,拟探讨QUADAS质量评估工具的14个条目是否为DTA系统综述方法学的异质性因素[3]


1. 检索策略:2013年12月在Medline、Embase、Cochrane(CDSR和DARE)3个数据库中,系统检索2008年1月1日至2012年12月31日发表的DTA系统综述,语言限制为英文。检索策略由两组检索词构成,一组是关于DTA研究的检索词,另一组是关于系统综述、Meta分析的检索词,两组检索词以“AND”连接,检索流程见图 1

图 1 文献纳入排除流程

2. 纳入排除标准:纳入标准:进行Meta分析的DTA系统综述;纳入原始研究的数目≥10;提供了原始研究的四格表数据;提供了QUADAS质量评估量表的14个条目评价结果的数据。其中,如果同一篇DTA系统综述包含了多个Meta分析,则只纳入原始研究数量最多的Meta分析。排除标准:重复发表文献;方法学研究;会议摘要、通信、评论及无法获得完整信息的其他文献;研究方案。

3. 文献信息摘录及质量评价:通过 EpiData 3.1软件制作信息提取表,提取文献的基本信息(作者、年份、Meta分析中纳入原始研究的数量、目标疾病、待检试验、金标准)及Meta分析中所纳入的原始研究信息[四格表数据(真阳性、假阳性、真阴性、假阴性)和QUADAS质量评估的14个条目信息(14个条目均以“是”、“否”、“不确定”进行回答,其中“是”记1分,“否”和“不确定”记0分,每个条目最高得分为1分)]。以上过程均由两人独立平行完成,意见不一致时由第三人裁决。

4. 统计学分析:用SAS 9.3软件拟合广义混合线性模型,即从原始研究水平建立分层合并受试者工作特征(ROC)随机效应的Meta回归模型[4],对纳入研究的系统综述中相关原始研究结果进行拟合,应变量为各原始研究的诊断比值比(DOR)[5]的对数logDOR,协变量为纳入的质量评估工具的条目(即异质性因素m)。模型说明:


其中,vim、ηij、εij为随机效应项,均服从正态分布;Est=1/aij+1/bij+1/cij+1/dij(其中a,b,c,d为四格表数据,Est代表每个原始研究的标准误)logDORij表示第i个系统综述第j个原始研究的logDORαi为常数项,表示第i个系统综述中总的准确度; βi为系数项,表示第i个系统综述中S的变化;Sij=logitSEN+logit(1-SEP);rm代表第m个异质性因素的平均效应值;vim代表第m个异质性因素在第i个系统综述中的残差;Xijm表示第i个系统综述第j个原始研究中第m个异质性因素的取值;最后,通过Excel 2010软件计算出rm及其95%CI的反对数,进而得到DOR之比[5]RDOR,其意义为具有某种偏倚风险因素研究的DOR合并值是不具有某种相应因素的研究的多少倍)及其95%CI。若某项研究的四格表中含有0,则对该研究的tp,fp,fn,tn(即a,b,c,d)分别加0.5进行校正。

结 果

1. 纳入研究基本特征:本研究为高等学校博士学科点专项科研基金课题《诊断试验系统综述中识别和处理方法学异质性的研究》中的一个子课题,该基金课题共检索到相关文献33 337篇,本项子课题在其检出文献的基础上,根据纳入和排除标准最终纳入分析的有23篇,合计550篇原始研究。

23篇文献的基本特征见表 1。各个Meta分析纳入原始研究的数量,最小为10[6, 7],最大为115[28];评估的目标疾病涵盖了冠状动脉疾病、关节韧带疾病、曲霉病、肺部疾病、癌症、糖尿病、神经系统疾病和败血病;待检试验包括影像学检查、实验室检测和患者的主观感受测评。

表 1 23篇识别诊断试验准确性系统综述的基本特征

纳入的550篇原始研究,其QUADAS质量评估的均值为8.79。满足条目1~14的原始研究数量分别为376、318、529、244、450、452、515、327、273、343、238、255、247和265,其中符合条目3和条目7的研究最多,比例达96.18%和93.64%,由此可见大部分原始研究选择的金标准较为准确,见表 2

表 2 550个原始研究的QUADAS 14个条目质量评估

2. 混合线性模型分析:用SAS 9.3软件的Proc Mixed模块,对纳入的23篇Meta分析,合计550篇原始研究,进行混合线性模型分析,建立分层合并ROC随机效应的Meta回归模型(表 3)。

表 3 DTA系统综述14种潜在方法学异质性因素来源的

(1)单因素分析:混合线性模型单因素分析显示,金标准不准确的诊断试验,其DOR合并值是金标准足够准确的诊断试验的0.026 8(95%CI:0.001 7~0.427 3)倍。金标准与待检试验不独立的诊断试验,其DOR合并值是金标准与待检试验相互独立的诊断试验的2.247 0(95%CI:1.043 8~4.837 3)倍。条目2、4、8、10、11、12、14的RDOR值均<1,条目1、5、6、9、13的RDOR值均>1,但差异无统计学意义(95%CI均包含1)。

(2)多因素分析:根据单因素分析结果,将具有统计学意义的条目(条目3和条目7)共同纳入混合线性模型,进行多因素分析,金标准与待检试验不独立的诊断试验,其DOR合并值是金标准与待检试验相互独立的诊断试验的2.396 6(95%CI:1.242 8~4.622 7)倍;金标准不准确的诊断试验,其DOR合并值是金标准足够准确的诊断试验的0.018 6(0.001 0~0.358 5)倍。

讨 论

本研究中混合线性模型单因素分析和多因素分析的结果一致,结果均表明,金标准不准确会低估DTA系统综述的准确性,多因素分析RDOR=0.018 6(95%CI:0.001 0~0.358 5);金标准与待检试验不独立会高估DTA系统综述的准确性,多因素分析RDOR=2.396 6(95%CI:1.242 8~4.622 7)。这一结论与Whiting等[29]2013年的一项研究结果一致,其研究认为金标准是否合适会对DTA的结果产生影响。此外,Lijmer等[30]1999年的研究结果发现,未清楚描述金标准的诊断试验与清楚描述金标准的诊断试验相比,RDOR=0.7(95%CI:0.6~0.9),也同本研究的结果相一致。从理论层面进行分析,以上两种情况的发生均会导致错分偏倚,其中金标准不准确使得真阳性和真阴性的个数降低,从而低估了结果的准确性;而金标准与待检试验不独立则使得假阳性和假阴性的个数大大降低,从而高估了结果的准确性。




