文章信息
- 李志霞, 杨智荣, 项骁, 高培, 舒正, 黄元升, 曹宇, 孙凤, 詹思延.
- Li Zhixia, Yang Zhirong, Xiang Xiao, Gao Pei, Shu Zheng, Huang Yuansheng, Cao Yu, Sun Feng, Zhan Siya.
- 识别诊断试验准确性系统综述的方法学异质性
- Methodological bias and variation of systematic reviews on diagnostic test accuracy
- 中华流行病学杂志, 2016, 37(2): 286-290
- Chinese Journal of Epidemiology, 2016, 37(2): 286-290
- http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.02.027
-
文章历史
- 投稿日期: 2015-07-09
在诊断试验准确性(diagnostic test accuracy,DTA)系统综述和Meta分析(合称DTA系统综述)中,除了对各原始研究的效应值进行定量合并以外,探讨其异质性来源也非常重要。有研究表明[1],一些已发表的诊断试验原始研究,由于研究设计的质量缺陷,其质量控制关键点出现漏洞。这一方面可能会引入偏倚,高估或低估诊断试验的准确性,另一方面会使研究之间出现方法学异质性,导致研究间不同的结果。Rutjes等[2]2006年的一项研究结果显示,连续纳入患者以及回顾性收集数据会高估试验结果,依据待检试验纳入患者会低估试验结果。然而迄今为止,针对DTA系统综述的方法学异质性进行探讨的研究仍然匮乏。因此,本文采用两水平多变量的混合线性模型,同时兼顾系统综述层面和原始研究层面的效应,拟探讨QUADAS质量评估工具的14个条目是否为DTA系统综述方法学的异质性因素[3]。
资料与方法1. 检索策略:2013年12月在Medline、Embase、Cochrane(CDSR和DARE)3个数据库中,系统检索2008年1月1日至2012年12月31日发表的DTA系统综述,语言限制为英文。检索策略由两组检索词构成,一组是关于DTA研究的检索词,另一组是关于系统综述、Meta分析的检索词,两组检索词以“AND”连接,检索流程见图 1。
2. 纳入排除标准:纳入标准:进行Meta分析的DTA系统综述;纳入原始研究的数目≥10;提供了原始研究的四格表数据;提供了QUADAS质量评估量表的14个条目评价结果的数据。其中,如果同一篇DTA系统综述包含了多个Meta分析,则只纳入原始研究数量最多的Meta分析。排除标准:重复发表文献;方法学研究;会议摘要、通信、评论及无法获得完整信息的其他文献;研究方案。
3. 文献信息摘录及质量评价:通过 EpiData 3.1软件制作信息提取表,提取文献的基本信息(作者、年份、Meta分析中纳入原始研究的数量、目标疾病、待检试验、金标准)及Meta分析中所纳入的原始研究信息[四格表数据(真阳性、假阳性、真阴性、假阴性)和QUADAS质量评估的14个条目信息(14个条目均以“是”、“否”、“不确定”进行回答,其中“是”记1分,“否”和“不确定”记0分,每个条目最高得分为1分)]。以上过程均由两人独立平行完成,意见不一致时由第三人裁决。
4. 统计学分析:用SAS 9.3软件拟合广义混合线性模型,即从原始研究水平建立分层合并受试者工作特征(ROC)随机效应的Meta回归模型[4],对纳入研究的系统综述中相关原始研究结果进行拟合,应变量为各原始研究的诊断比值比(DOR)[5]的对数logDOR,协变量为纳入的质量评估工具的条目(即异质性因素m)。模型说明:
logDORij=αi+βiSij+∑(rm+vim)Xijm+ηij+εij
其中,vim、ηij、εij为随机效应项,均服从正态分布;Est=1/aij+1/bij+1/cij+1/dij(其中a,b,c,d为四格表数据,Est代表每个原始研究的标准误)logDORij表示第i个系统综述第j个原始研究的logDOR;αi为常数项,表示第i个系统综述中总的准确度; βi为系数项,表示第i个系统综述中S的变化;Sij=logitSEN+logit(1-SEP);rm代表第m个异质性因素的平均效应值;vim代表第m个异质性因素在第i个系统综述中的残差;Xijm表示第i个系统综述第j个原始研究中第m个异质性因素的取值;最后,通过Excel 2010软件计算出rm及其95%CI的反对数,进而得到DOR之比[5](RDOR,其意义为具有某种偏倚风险因素研究的DOR合并值是不具有某种相应因素的研究的多少倍)及其95%CI。若某项研究的四格表中含有0,则对该研究的tp,fp,fn,tn(即a,b,c,d)分别加0.5进行校正。
结 果1. 纳入研究基本特征:本研究为高等学校博士学科点专项科研基金课题《诊断试验系统综述中识别和处理方法学异质性的研究》中的一个子课题,该基金课题共检索到相关文献33 337篇,本项子课题在其检出文献的基础上,根据纳入和排除标准最终纳入分析的有23篇,合计550篇原始研究。
23篇文献的基本特征见表 1。各个Meta分析纳入原始研究的数量,最小为10[6, 7],最大为115[28];评估的目标疾病涵盖了冠状动脉疾病、关节韧带疾病、曲霉病、肺部疾病、癌症、糖尿病、神经系统疾病和败血病;待检试验包括影像学检查、实验室检测和患者的主观感受测评。
纳入的550篇原始研究,其QUADAS质量评估的均值为8.79。满足条目1~14的原始研究数量分别为376、318、529、244、450、452、515、327、273、343、238、255、247和265,其中符合条目3和条目7的研究最多,比例达96.18%和93.64%,由此可见大部分原始研究选择的金标准较为准确,见表 2。
2. 混合线性模型分析:用SAS 9.3软件的Proc Mixed模块,对纳入的23篇Meta分析,合计550篇原始研究,进行混合线性模型分析,建立分层合并ROC随机效应的Meta回归模型(表 3)。
(1)单因素分析:混合线性模型单因素分析显示,金标准不准确的诊断试验,其DOR合并值是金标准足够准确的诊断试验的0.026 8(95%CI:0.001 7~0.427 3)倍。金标准与待检试验不独立的诊断试验,其DOR合并值是金标准与待检试验相互独立的诊断试验的2.247 0(95%CI:1.043 8~4.837 3)倍。条目2、4、8、10、11、12、14的RDOR值均<1,条目1、5、6、9、13的RDOR值均>1,但差异无统计学意义(95%CI均包含1)。
(2)多因素分析:根据单因素分析结果,将具有统计学意义的条目(条目3和条目7)共同纳入混合线性模型,进行多因素分析,金标准与待检试验不独立的诊断试验,其DOR合并值是金标准与待检试验相互独立的诊断试验的2.396 6(95%CI:1.242 8~4.622 7)倍;金标准不准确的诊断试验,其DOR合并值是金标准足够准确的诊断试验的0.018 6(0.001 0~0.358 5)倍。
讨 论本研究中混合线性模型单因素分析和多因素分析的结果一致,结果均表明,金标准不准确会低估DTA系统综述的准确性,多因素分析RDOR=0.018 6(95%CI:0.001 0~0.358 5);金标准与待检试验不独立会高估DTA系统综述的准确性,多因素分析RDOR=2.396 6(95%CI:1.242 8~4.622 7)。这一结论与Whiting等[29]2013年的一项研究结果一致,其研究认为金标准是否合适会对DTA的结果产生影响。此外,Lijmer等[30]1999年的研究结果发现,未清楚描述金标准的诊断试验与清楚描述金标准的诊断试验相比,RDOR=0.7(95%CI:0.6~0.9),也同本研究的结果相一致。从理论层面进行分析,以上两种情况的发生均会导致错分偏倚,其中金标准不准确使得真阳性和真阴性的个数降低,从而低估了结果的准确性;而金标准与待检试验不独立则使得假阳性和假阴性的个数大大降低,从而高估了结果的准确性。
此外,本研究中混合线性模型单因素分析的结果提示,“纳入标准不足够准确”、“待检试验和金标准执行的时间间隔不合理”、“待检试验描述不足够清楚不可重复”、“解读待检试验的结果时,知道金标准的结果”、“解读金标准的结果时,知道待检试验的结果”、“结果不具有临床可推广性”和“未解释了退出病例”,会低估DTA系统综述的准确性;“患者没有代表性”、“部分患者接受了金标准的验证”、“接受的金标准不是同一个”、“金标准的描述不足够清楚不可重复”和“未报告了不可解释的/中间结局”,会高估DTA系统综述的准确性。
与既往研究相比,本研究采用混合线性模型探讨了DTA系统综述的14种异质性来源,该模型是两水平多变量模型,同时兼顾了系统综述层面和原始研究层面的效应,在模型参数的处理方面,计算也更为精确。然而,本研究同时存在很多局限性。本研究中所探讨的只是有关DTA方法学方面的14种设计因素,随着DTA系统综述的不断规范化以及文章数量的增多,有更多的异质性因素值得我们去探究。此外,由于本研究所纳入的文献样本量较少,而混合线性模型对样本量的要求较高,随机效应因子的个数有限,因此只能将单因素有意义的结果放入模型进行进一步验证;而且本研究涉及的诊断领域较多(涵盖了影像学检查、实验室检测和患者的主观感受测评等多个领域),一方面导致了条目3和条目7结果的95%CI较宽,另一方面使得大部分条目的结果无统计学意义,这些异质性因素是否会真正导致结局的变异,还有待于今后纳入更多的DTA系统综述进一步去验证。
利益冲突 无[1] Reid MC, Lachs MS, Feinstein AR.Use of methodological standards in diagnostic test research.Getting better but still not good[J].JAMA, 1995, 274(8):645-651.DOI:10.1001/jama.1995.03530080061042. |
[2] Rutjes AWS, Reitsma JB, Di Nisio M, et al.Evidence of bias and variation in diagnostic accuracy studies[J].CMAJ, 2006, 174(4):469-476.DOI:10.1503/cmaj.050090. |
[3] Whiting P, Rutjes AW, Reitsma JB, et al.The development of QUADAS:a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews[J].BMC Med Res Methodol, 2003, 3:25.DOI:10.1186/1471-2288-3-25. |
[4] Harbord RM, Whiting P, Sterne JAC, et al.An empirical comparison of Methods for meta-analysis of diagnostic accuracy showed hierarchical models are necessary[J].J Clin Epidemiol, 2008, 61(11):1095-1103.DOI:10.1016/j.jclinepi.2007.09.013. |
[5] The Cochrane Collaboration.Cochrane handbook for systematic reviews of diagnostic test accuracy[M].London:The Cochrane Collaboration, 2013. |
[6] Yin JY, Ho KM.Use of plethysmographic variability index derived from the Massimo® pulse oximeter to predict fluid or preload responsiveness:A systematic review and meta-analysis[J].Anaesthesia, 2012, 67(7):777-783.DOI:10.1111/j.1365-2044.2012.07117.x. |
[7] van der Windt DA, Simons E, Riphagen Ⅱ, et al.Physical examination for lumbar radiculopathy due to disc herniation in patients with low-back pain[J].Cochrane Database Syst Rev, 2010, 17(2):CD007431.DOI:10.1002/14651858.CD007431. |
[8] Wu YP, Wang F, Fan XH, et al.Accuracy of plasma sTREM-1 for sepsis diagnosis in systemic inflammatory patients:a systematic review and meta-analysis[J].Critical Care, 2012, 16(6):R229.DOI:10.1186/cc11884. |
[9] Gargiulo P, Petretta M, Bruzzese D, et al.Myocardial perfusion scintigraphy and echocardiography for detecting coronary artery disease in hypertensive patients:A meta-analysis[J].Eur J Nucl Med Mol Imaging, 2011, 38(11):2040-2049.DOI:10.1007/s00259-011-1891-0. |
[10] Smith TO, Drew BT, Toms AP, et al.The diagnostic accuracy of X-ray arthrography for triangular fibrocartilaginous complex injury:a systematic review and meta-analysis[J].J Hand Surg Eur Vol, 2012, 37(9):879-887.DOI:10.1177/1753193411402762. |
[11] Ringer R, Wertli M, Bachmann LM, et al.Concordance of qualitative bone scintigraphy Results with presence of clinical complex regional pain syndrome 1:Meta-analysis of test accuracy studies[J].Eur J Pain, 2012, 16(10):1347-1356.DOI:10.1002/j.1532-2149.2012.00137.x. |
[12] Neto AS, Nassar APJr, Cardoso SO, et al.Delirium screening in critically ill patients:A systematic review and meta-analysis[J].Crit Care Med, 2012, 40(6):1946-1951.DOI:10.1097/CCM.0b013e31824e16c9. |
[13] Jellema P, van Der Windt DA, Bruinvels DJ, et al.Value of symptoms and additional diagnostic tests for colorectal cancer in primary care:Systematic review and meta-analysis[J].BMJ, 2010, 340:c1269.DOI:10.1136/bmj.c1269. |
[14] Santin M, Munoz L, Rigau D.Interferon-γ release assays for the diagnosis of tuberculosis and tuberculosis infection in HIV-infected adults:a systematic review and meta-analysis[J].PLoS One, 2012, 7(3):e32482.DOI:10.1371/journal.pone.0032482. |
[15] Chen L, Zhang J, Zhang L, et al.Meta-analysis of gadoxetic acid disodium(Gd-EOB-DTPA)-enhanced magnetic resonance imaging for the detection of liver metastases[J].PLoS One, 2012, 7(11):e48681.DOI:10.1371/journal.pone.0048681. |
[16] Ye YC, Xie HZ, Zhao XL, et al.The oral glucose tolerance test for the diagnosis of diabetes mellitus in patients during acute coronary syndrome hospitalization:a meta-analysis of diagnostic test accuracy[J].Cardiovasc Diabetol, 2012, 11:155.DOI:10.1186/1475-2840-11-155. |
[17] Wang Z, Chen JQ.Imaging in assessing hepatic and peritoneal metastases of gastric cancer:a systematic review[J].BMC gastroenterol, 2011, 11:19.DOI:10.1186/1471-230X-11-19. |
[18] Ngamruengphong S, Sharma VK, Nguyen B, et al.Assessment of response to neoadjuvant therapy in esophageal cancer:An updated systematic review of diagnostic accuracy of endoscopic ultrasonography and fluorodeoxyglucose positron emission tomography[J].Dis Esophagus, 2010, 23(3):216-231.DOI:10.1111/j.1442-2050.2009.00989.x. |
[19] Lucassen W, Geersing GJ, Erkens PMG, et al.Clinical decision rules for excluding pulmonary embolism:a meta-analysis[J].Ann Intern Med, 2011, 155(7):448-460.DOI:10.7326/0003-4819-155-7-201110040-00007. |
[20] Ottenheijm RP, Jansen MJ, Staal JB, et al.Accuracy of diagnostic ultrasound in patients with suspected subacromial disorders:a systematic review and meta-analysis[J].Arch Phys Med Rehabi, 2010, 91(10):1616-1625.DOI:10.1016/j.apmr.2010.07.017. |
[21] Smith TO, Daniell H, Geere JA, et al.The diagnostic accuracy of MRI for the detection of partial-and full-thickness rotator cuff tears in adults[J].Magn Reson Imaging, 2012, 30(3):336-346.DOI:10.1016/j.mri.2011.12.008. |
[22] Xia Y, Liu YL, Yang KH, et al.The diagnostic value of urine-based survivin mRNA test using reverse transcription-polymerase chain reaction for bladder cancer:A systematic review[J].Chin J Cancer, 2010, 29(4):441-446. |
[23] Steingart KR, Flores LL, Dendukuri N, et al.Commercial Serological tests for the diagnosis of active pulmonary and extrapulmonary tuberculosis:an updated systematic review and meta-analysis[J].PLoS Med, 2011, 8(8):e1001062.DOI:10.1371/journal.pmed.1001062. |
[24] Smith TO, Drew BT, Toms AP.A meta-analysis of the diagnostic test accuracy of MRA and MRI for the detection of glenoid labral injury[J].Arch Orthop Trauma Surg, 2012, 132(7):905-919.DOI:10.1007/s00402-012-1493-8. |
[25] Leeflang MM, Debets-Ossenkopp YJ, Visser CE, et al.Galactomannan detection for invasive aspergillosis in immunocompromized patients[J].Cochrane Database Syst Rev, 2008(4):CD007394.DOI:10.1002/14651858.CD007394. |
[26] Smith TO, Back T, Toms AP, et al.Diagnostic accuracy of ultrasound for rotator cuff tears in adults:a systematic review and meta-analysis[J].Clin Radiol, 2011, 66(11):1036-1048.DOI:10.1016/j.crad.2011.05.007. |
[27] Smith TO, Lewis M, Song F, et al.The diagnostic accuracy of anterior cruciate ligament rupture using magnetic resonance imaging:a meta-analysis[J].Eur J Orthop Surg Traumatol, 2012, 22(4):315-326.DOI:10.1007/s00590-011-0829-3. |
[28] Parker MW, Iskandar A, Limone B, et al.Diagnostic accuracy of cardiac positron emission tomography versus single photon emission computed tomography for coronary artery disease:a bivariate meta-analysis[J].Circ Cardiovasc Imaging, 2012, 5(6):700-707.DOI:10.1161/CIRCIMAGING.112.978270. |
[29] Whiting PF, Rutjes AW, Westwood ME, et al.A systematic review classifies sources of bias and variation in diagnostic test accuracy studies[J].J Clin Epidemiol, 2013, 66(10):1093-1104.DOI:10.1016/j.jclinepi.2013.05.014. |
[30] Lijmer JG, Mol BW, Heisterkamp S, et al.Empirical evidence of design-related bias in studies of diagnostic tests[J].JAMA, 1999, 282(11):1061-1066.DOI:10.1001/jama.282.11.1061. |