文章信息
- 唐少文, 张渊, 陶必林, 杨智荣, 孙凤, 詹思延.
- Tang Shaowen, Zhang Yuan, Tao Bilin, Yang Zhirong, Sun Feng, Zhan Siyan.
- 偏倚风险评估系列:(七)预后因素研究
- Risk of bias assessment: (7) Assessing Bias in Studies of Prognostic Factors
- 中华流行病学杂志, 2018, 39(7): 1003-1008
- Chinese Journal of Epidemiology, 2018, 39(7): 1003-1008
- http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2018.07.026
-
文章历史
收稿日期: 2017-09-26
2. L8S 4K1 McMaster大学临床流行病学与卫生统计学系;
3. CBl 8RN英国剑桥大学临床医学院初级医疗中心;
4. 100191 北京大学循证医学中心
2. Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton L8S 4K1, CA;
3. Primary Care Unit, Department of Public Health and Primary Care, School of Clinical Medicine, University of Cambridge, Cambridgeshire CBl 8RN, UK;
4. Center of Evidence-based Medicine, Peking University, Beijing 100191, China
疾病预后研究(prognosis studies)是指对疾病发展为不同结局可能性的预测与影响因素研究。预后研究有助于医患双方了解疾病的发展趋势,并做出相应的临床决策,以争取较小的代价与较好的疾病转归[1]。预后因素(prognostic factors)是预后研究的重要内容之一,主要是指能预测疾病某种(些)结局发生时间与概率,或者能改变结局发生进程与概率的因素[1]。预后因素研究可以借助于各种流行病学方法,但研究过程中存在各种偏倚会导致研究结果无法在人群中进行预测或验证[2]。因此,有必要对预后因素研究中存在的偏倚风险进行评估,以便筛选出合格研究后再进行证据整合,从而为临床循证决策提供基础。
一、制定背景在开展预后研究系统综述时,纳入的原始研究如果在方法学上存在缺陷将会直接影响系统综述的内部有效性,导致无效的结果或推论。然而,对如何评估预后研究的质量尚无一致的共识。Hayden等[2]2006年通过检索Medline上1966-2005年11月之间发表的预后研究系统综述,纳入基于队列研究且有质量评价的系统综述共163篇,然后提取每篇系统综述内进行质量评价的条目(共计882项)。两位资深评价者(1名临床流行病学家和1名流行病学家)分别独立地分析提取的质量评价条目,以确定其在系统综述中评估潜在偏倚的程度,并对其进行归类。两位评价者对882项中的652项归类为25个领域达成共识,其中有14个领域可以反映潜在的偏倚。最终将这14个领域归类于6种偏倚用于评价原始预后研究的质量,即涉及到研究对象、研究对象失访、预后因素测量、结局测量、混杂因素测量和说明、统计分析等,并根据原始研究质量将评定结果分为是、部分是、否、不确定4类[2]。6年后由14名成员组成的工作小组(流行病学家、统计学家、临床专家)基于既往使用者反馈情况,采用电子邮件的德尔菲法和名义小组技术对评估偏倚领域的项目进一步提炼,并提出新的偏倚评估等级分类,于2013年形成新的预后研究偏倚评价工具[Quality In Prognosis Studies(QUIPS)tool][3]。
二、条目解读QUIPS工具将预后研究中存在的潜在偏倚分为6个方面,即研究对象、研究失访、预后因素测量、结局测量、研究混杂、数据统计分析和报告,并根据原始研究中的描述,将每个偏倚评定分为高偏倚风险、中等偏倚风险和低偏倚风险。该工具对每个偏倚中的提示项、注意点以及总体等级评定均进行了详细描述,评价者可以在www.annals.org上下载QUIPS工具的整个版本。具体评价要点及内容见表 1。
1.研究对象领域:主要用来说明研究对象代表性,以便评价者判断原始研究是否正确反映了预后因素和源人群目标结局之间的关系。为此,评价者要考虑到合格的且参与到研究中的研究对象比例,以及源人群的描述、研究样本的基线资料、抽样方法和研究对象的招募、纳入和排除标准等。如果研究对象参与率很低、研究样本与源人群在年龄和性别的分布上存在很大差异、招募的合格病例是经过筛选而非连续的样本等,则该研究存在高偏倚风险。反之,那些合格的且为连续招募的对象与研究的源人群具有相似的特征,且具有较高的参与率,则该研究存在低偏倚风险。
2.研究失访领域:主要用来说明随访到的资料是否代表了参加到该研究中的所有人的结果,以便评价者判断预后因素和结局之间的关系是否受到一个特定选择且完成随访的研究对象导致的偏倚影响。为此,评价者需要考虑研究对象的退出率、失访原因以及失访者和未失访者的特征差异。如果完成随访的研究对象与失访者在某种程度上存在很大的差异,将歪曲预后因素与结局的关系,则该研究存在高偏倚风险。反之,研究对象全部完成随访或失访是随机的,则该研究存在低偏倚风险。
3.预后因素测量领域:主要用来说明预后因素测量是否恰当的问题,以便评价者判断所有研究对象是否运用了相似的、真实可靠的方法来进行预后因素的测量。为此,评价者需要考虑预后因素的定义、测量方法真实性和可靠性的证据、所有研究对象预后因素测量方法以及结果报道的类似性。此外,还包括测量方法的外在特性、运用盲法或独立测量、对回忆有限的依赖性等。如果预后因素均采用类似的且真实可靠的方法测量,则该研究存在低偏倚风险。反之,如果使用不可靠的方法或者会导致系统性错误分类的不同方法进行测量,则该研究存在高偏倚风险。
4.结局测量领域:主要用来说明结局指标测量是否恰当,以便评价者判断研究对象的结局测量是否运用相似的、真实和可靠的方法。为此,评价者需要清楚地考虑结局的定义、测量的真实性和可靠性证据以及对不同水平的预后因素测量方法的相似性(即相似的环境、测量方法以及随访时间)。此外,还包括测量方法的外在特性、盲法测量、运用另一个真实可靠的试验确认研究结局等。如果某研究中不同结局的测量方法与预后因素暴露程度有关,则该研究存在高偏倚风险。反之,如果所有研究对象的结局测量都用相似且真实可靠的方法,则该研究存在低偏倚风险。
5.研究混杂领域:主要用来说明潜在混杂因素问题,以便评价者判断是否存在其他因素可以来解释研究的预后因素与结局的关系。为此,评价者要考虑到对所有研究对象潜在混杂测量的真实性、可靠性、相似性,以及在研究设计与分析过程中是否将所有重要的混杂因素都考虑到了。如果存在另外的一个与预后因素和结局都有关联的因素,且有可能解释预后作用的话,则该研究存在高偏倚风险。
6.数据统计分析和报告领域:主要用来说明研究统计分析的合适性和报告的完整性,以便评价者判断由于统计分析和报告的问题,哪些结果是虚假的、存在偏倚的。为此,评价者需要基于所呈现的数据考虑分析策略、建模过程以及结果选择性报告的程度。其中选择性报告的判断是一项非常重要的方面,因为多数研究一般只报道与研究结局有统计学关联的预后因素。如果数据的统计学分析方法是恰当的、统计学假设是合理的以及报道了所有的主要结果,则该研究存在低偏倚风险。
三、实例分析克罗恩病(Crohn)是一种原因不明、主要累及回肠末端、可以侵犯全消化道并伴有免疫异常的全身性疾病。临床上常有腹痛、腹泻、腹部肿块、肠穿孔、肠瘘和肠梗阻等症状,伴发热和营养障碍等肠外症状。1/3的Crohn患者会发展为肛周瘘,但仅有1/3肛周瘘能实现长期愈合或关闭。而对这类患者开展良好设计的临床试验的障碍就是缺乏对Crohn合并肛周瘘管预后因素的全面了解。因此,开展对Crohn合并肛周瘘管的预后因素进行系统综述非常必要。Braithwaite等[4]通过对PubMed和Embase数据库进行检索和筛选,纳入13篇文献。但由于纳入研究在预后因素定义、结局定义、研究方法、随访时间、统计分析方法等多方面存在差异,最终开展了定性系统综述。
该系统综述采用QUIPS工具对纳入的13个原始研究进行偏倚风险评估,结果显示13个研究在研究对象选择、研究对象的失访、预后因素测量以及结局测量等方面存在较低的偏倚风险,但在混杂因素处理、统计分析和报告两方面存在一定比例的高偏倚风险,各有6篇文献被判断为高风险,表现为未能控制潜在的混杂偏倚,以及未采用合适的统计分析模型等。由于文章篇幅限制,仅对Haennig等[5]2015年开展的研究进行偏倚风险评估(表 2)。该研究是基于医院2000-2010年连续性就诊治疗且有完整资料的81名Crohn患者进行分析,探讨挂线引流联合英夫利西对持久瘘管闭合的效果,以及鉴别对不同结局反应的预测因素。但由于样本量的限制,未能发现对复发有明显意义的预测因素。
该系统综述全面描述了Crohn合并肛周瘘管潜在预后因素,包括遗传因素和疾病行为等方面,但由于纳入研究存在异质性,尚不能肯定的结论。因此,对后续研究的建议主要是开展良好设计的队列研究和采用一致的报告终点。
四、讨论QUIPS工具中包括的领域和条目是制定者通过一系列严格的定性研究方法确定的,并且在接受反馈后对评估工具进行了一些调整后,确定了最终版本[3]。毫无疑问,QUIPS工具是一个制定方法严格、纳入条目详尽、应用目标明确的预后研究评价工具,但该工具在使用过程中,尚有一些值得商榷的地方。
1.在QUIPS工具中,许多提示问题与文献报告标准相关。如前所述,评价者需要注意报告质量并不等同于研究质量或者偏倚风险[6]。许多提示问题的表述方式与文献报告相关,例如在第一个领域“研究对象”中的第二项“确定研究人群的方法”中,提示问题为“抽样框架和招募方法得到了恰当的描述,包括用于充分控制潜在偏倚的方法”,以及第三项“招募时间”,“招募时间得到了恰当的描述”[3]。报告质量差的研究,评价者很难对其研究质量和偏倚风险作出有效、准确的评价,这对所有类型的研究都适用。但是使用接近报告标准的提示问题仍然会对评价者造成一些困扰,主要由于:①报告质量差不等于研究质量差,或者说研究有偏倚风险[7]。对于报告不清的研究,评价者本可以将偏倚风险判定为“不确定”,正如Cochrane随机对照试验偏倚风险评估工具所提供的选项,或者如一些研究者建议,根据有限的信息作出最佳的个人判断[8]。而目前的条目设置方式,有强制评价者根据报告内容(即使报告质量很差)作出判断的倾向,而且这样的设置方式具有给报告质量差的研究作出较低评价(较高的偏倚风险)的倾向。②原始研究质量评价取决于条目本身,单个条目的报告不清,对于这个领域内的偏倚风险的贡献可能是有限的。例如,在第一个领域“研究对象”中,如果作者未报告研究对象的招募时间(第三项条目),这在多大程度上影响了“研究对象”相关的偏倚风险呢?③即使评价者清楚知晓报告质量不等于偏倚,在同一个领域中混入报告质量和研究质量相关的条目,也给评价者使用工具造成了混淆和困难。
2.每个条目和每个领域对于研究的偏倚风险影响是不同的。权重不清是研究整体偏倚风险评价的一方面,尤其是在存在多个领域,而每个领域又有多个条目,每个条目又有多个选项(是、否、不确定)的情况下,这个方面的问题就凸显得更明显。这个评估工具缺乏清晰的指导,供评价者参考,以作出从每个条目的提示问题到每个领域的偏倚风险的判断,以及从每个领域的偏倚风险到研究整体偏倚风险的判断。偏倚风险的判断取决于条目本身,如果多个条目出现的问题,而每个条目对于这个领域内的偏倚风险贡献可能是不同的。例如,在“研究对象”中,作者未报告研究对象的招募时间(第三项),对偏倚风险判断的影响与第六项“足够的研究对象”(研究中要有充足的符合条件的研究对象)相比,显然是第六项更重要一些。但是评价者需要综合多项来作出针对一个领域的整体偏倚风险的判断,这个过程缺乏清晰的指导。同样,即使评价者对每个评估领域作出了高、中、低的偏倚风险结果评估[3],如何将6个领域的评估结果整合为一个总的针对研究的评估结果并不清楚(表 2)。评价者可以根据实际问题,来预设合适的使用标准,与合作者根据一致的标准来进行评价。但是在缺乏工具制定者的指导下,来自不同地区的研究者可能会根据相同的评估工具,设定不同的使用标准。
3.具体的研究情境可能会影响甚至限制评估工具的使用。从“预后因素”的角度来说,预后是指患有特定疾病、或处在某种健康条件下、或具有某种特征的人群在未来一段特定时间内发生某种健康结局的可能性[9]。这里的“预后因素”,可以是诊断的疾病,或者是某种健康条件,可以是单个特征(如性别、年龄),也可以是某个疾病风险预测模型。如果是诊断的疾病,那么实际上第三个领域“预后因素测量”也与诊断工具的准确性及其应用相关。此外,Cochrane随机对照试验偏倚风险评估工具认为同一个研究中不同的结局受到的偏倚风险影响是不同的。从评估的单元来考虑,一项预后研究可能评价了多个预后因素对于一个结局的影响,或者单个预后因素对于多个结局的影响,同一个研究中相同的研究设计,对于不同的预后因素和不同的结局造成的偏倚影响可能是不同的,这些在进行评估时都是需要考虑的问题。
综上所述,预后研究有不同的研究设计类型,而QUIPS工具可以适用于各种类型,这与其他偏倚风险评价工具不一样,后者一般是针对具体设计类型进行评价。因此,预后研究偏倚风险评价是否需要结合研究设计类型以及如何结合,值得制定者和用户在今后的研究和应用中探索。
利益冲突: 无
[1] | Altman DG. Systematic reviews of evaluations of prognostic variables[J]. BMJ, 2001, 323(7306): 224–228. DOI:10.1136/bmj.323.7306.224 |
[2] | Hayden JA, Côté P, Bombardier C. Evaluation of the quality of prognosis studies in systematic reviews[J]. Ann Intern Med, 2006, 144(6): 427–437. DOI:10.7326/0003-4819-144-6-200603210-00010 |
[3] | Hayden JA, van der Windt DA, Cartwright JL, et al. Assessing bias in studies of prognostic factors[J]. Ann Intern Med, 2013, 158(4): 280–286. DOI:10.7326/0003-4819-158-4-201302190-00009 |
[4] | Braithwaite GC, Lee MJ, Hind D, et al. Prognostic factors affecting outcomes in fistulating perianal Crohn's disease:a systematic review[J]. Tech Coloproctol, 2017, 21(7): 501–519. DOI:10.1007/s10151-017-1647-3 |
[5] | Haennig A, Staumont G, Lepage B, et al. The results of Seton drainage combined with anti-TNFα therapy for anal fistula in Crohn's disease[J]. Colorectal Dis, 2015, 17(4): 311–319. DOI:10.1111/codi.12851 |
[6] |
杨智荣, 孙凤, 詹思延. 偏倚风险评估系列:(一)概述[J]. 中华流行病学杂志, 2017, 38(7): 983–987.
Yang ZR, Sun F, Zhan SY. Risk of bias assessment:(1) overview[J]. Chin J Epidemiol, 2017, 38(7): 983–987. DOI:10.3760/cma.j.issn.0254-6450.2017.07.027 |
[7] | Littlewood C, Ashton J, Chance-Larsen K, et al. The quality of reporting might not reflect the quality of the study:implications for undertaking and appraising a systematic review[J]. J Man Manip Ther, 2012, 20(3): 130–134. DOI:10.1179/2042618611Y.0000000013 |
[8] | Higgins JP, Altman DG, Gotzsche PC, et al. The Cochrane Collaboration's tool for assessing risk of bias in randomised trials[J]. BMJ, 2011, 343: d5928. DOI:10.1136/bmj.d5928 |
[9] | Iorio A, Spencer FA, Falavigna M, et al. Use of GRADE for assessment of evidence about prognosis:rating confidence in estimates of event rates in broad categories of patients[J]. BMJ, 2015, 350: h870. DOI:10.1136/bmj.h870 |