伞形评价——一种新型循证医学分析方法

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2020.02.021
中华医学会主办。

文章信息

刘海霞, 胡德华, 尹怀琼.

Liu Haixia, Hu Dehua, Yin Huaiqiong

伞形评价——一种新型循证医学分析方法

Umbrella review—a new method related to evidence-based medical analysis

中华流行病学杂志, 2020, 41(2): 261-266

Chinese Journal of Epidemiology, 2020, 41(2): 261-266

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2020.02.021

文章历史

收稿日期: 2019-05-09

引用本文

刘海霞, 胡德华, 尹怀琼. 伞形评价——一种新型循证医学分析方法[J]. 中华流行病学杂志, 2020, 41(2): 261-266

Liu Haixia, Hu Dehua, Yin Huaiqiong. Umbrella review—a new method related to evidence-based medical analysis[J]. Chinese Journal of Epidemiology, 2020, 41(2): 261-266.

伞形评价——一种新型循证医学分析方法

刘海霞¹ , 胡德华¹ , 尹怀琼²

1. 中南大学生命科学学院生物医学信息系, 长沙 410013;
2. 中南大学医学图书馆, 长沙 410013

收稿日期: 2019-05-09

基金项目: 国家留学基金(201806375096)

通信作者: 胡德华，Email:hudehua2000@163.com

摘要: 伞形评价是一种最新的循证医学分析方法，是继系统评价和Meta分析之后的更高层级的医疗证据分析方法。它以系统评价和Meta分析为基础，又高于系统评价和Meta分析。所以在很多具体操作方面，它与Meta分析类似，但更需要注意其独特之处。本文着重介绍了伞形评价的概念、主要步骤、局限性以及发展趋势等。

关键词: 伞形评价 Meta分析循证医学

Umbrella review—a new method related to evidence-based medical analysis

Liu Haixia¹ , Hu Dehua¹ , Yin Huaiqiong²

1. Department of Biomedical Informatics, School of Life Sciences, Central South University, Changsha 410013, China;
2. Medical Library, Central South University, Changsha 410013, China

Corresponding author: Hu Dehua, Email:hudehua2000@163.com.

Fund program: China Scholarship Fund (201806375096)

Abstract: Umbrella review is a newly developed method, used for evidence-based medicine analysis. It is somehow better than systematic reviews and Meta-analysis for medical evidence analysis. It is based on systematic reviews and Meta-analysis but in a more sophisticate way. In many specific occasions, it is similar to Meta-analysis but with more uniqueness. This paper introduces and focusing on the concept, major steps of operation, limitations and developing trends of the umbrella review.

Key words: Umbrella review Meta-analysis Evidence-based medicine

循证医学的兴起不断被医学相关人员所接受，人们意识到所有的医学相关实践和临床决策都是需要遵循有关证据的。从动物研究开始，到人群流行病学、随机对照试验，以及这些研究的综合评价，这一系列研究，研究设计和研究方法不同，最终得到的研究结果的质量和可靠性也不尽相同。通常情况下，系统评价和Meta分析的质量层级最高，是循证医学的核心部分^[1]。过去十年间，系统评价和Meta分析的研究及成果发表迅猛增长，几乎涵盖医学所有专业。2008年Meta分析报道约3 300篇，2018年为20 000篇左右。这种综合医学证据研究填补了大量临床决策的证据空白，但同时也带来了混乱与争议。如出现同一医学研究主题得到的研究结论不尽相同甚至完全相反，这给临床医生的医疗决策带来了困难^[2]。因此，需要对这些数量众多的医学综合证据研究（也就是系统评价和Meta分析）进行进一步的综合评价分析。

一、伞形评价概念

伞形综述（umbrella reviews），又称为伞形评价，是国际上最近几年才开始兴起的一种综述评价方法，国内文献目前尚未见正式报道。伞形综述又称为系统综述的系统综述，是对某项医学研究主题的所有系统评价和Meta分析进行再次系统评估，从而得出更可靠的相关结论的一种研究方法^[3-4]。

基础性的单个研究、系统评价及Meta分析、伞形评价的相互关系见图 1，它们分别属于初次、二次和三次研究，是递进关系。系统评价及Meta分析是以大量的单个研究为基础进行的综合研究，而伞形评价是以一定数量的系统评价及Meta分析为基础进行的综合评价。从伞形评价的概念也可以看出，只有当某项医学研究主题的系统评价和Meta分析达到一定数量以后，且这些系统评价和Meta分析得出的研究结果存在争议时，才有必要进行深入的三次研究，即伞形评价。

图 1 医学证据综合研究的层级关系

图选项

在传统Meta分析的基础上，已经衍生出许多新的Meta分析方法，如累积Meta分析。它不仅能够获得某个主题汇总的结果，还能够在多次Meta分析的过程中比较汇总结果的动态变化，还能够比较新加入研究对总体结果的影响。但从本质上来讲，它仍属于上述的二次研究，与伞形评价这个三次研究不在一个层次。

从某种程度上来说，伞形评价来源于系统评价、Meta分析，但是在某些方面又与系统评价/Meta分析存在差异。伞形评价与系统评价/Meta分析的异同见表 1。

表 1 伞形评价与系统评价/Meta分析的异同

表选项

另外，伞形评价与系统评价概览（overviews of reviews），也称为系统评价再评价，都是以某医学主题的系统评价为研究对象，但后者更多的是对涉及的系统评价进行相关质量评价，如方法学质量评价和证据质量评价，前者更多地关注用于指导临床实践的医学证据合成^[5]。二者在方法学上都在不断地发展充实中，有融合趋势。

经Web of Science（WOS）检索发现，伞形评价相关研究始于2002年，Sparks和Hunsaker^[6]通过大型伞形评价，分析婴儿猝死综合症（SIDS）的脑脊液、大脑、小脑、脑干、脑下垂体和松果体中的组织学、免疫组化和生化标志物的表达情况。图 2为伞形评价相关研究在WOS上发文量按年份统计分布图，从2013年开始，伞形评价相关研究产出量急剧递增（2019年为不完全统计），说明伞形评价相关研究在近几年受到了相关学者的广泛重视。

图 2 Web of Science检索中Umbrella Reviews相关研究的年度发文量

图选项

利用CitespaceⅤ可视化分析工具可知，美国斯坦福大学、希腊约阿尼纳大学、英国帝国理工学院在伞形评价相关研究中贡献较大，说明伞形评价相关研究已经引起了相关知名机构及高校的重视。

WOS检索结果中，伞形评价相关研究发文量排前10位的来源出版物是：Systematic Reviews、BMJ British Medical Journal、BMJ Open、European Journal of Public Health、Medicine and Science in Sports and Exercise、PLoS One、BMC Medicine、British Journal of Sports Medicine、Journal of Chiropractic Medicine、ACTA Psychiatrica Scandinavica。其中出现了多篇高被引文献，如Theodoratou等^[7]于2014年对血浆25-羟基维生素D或1, 25-二羟维生素D浓度的观察性研究的系统评价和Meta分析以及维生素D补充剂的随机对照试验的证据进行了伞形评价，该论文被引次数高达348次。

二、伞形评价的主要步骤

1.确定研究主题：要想完成一篇高质量的伞形综述，首先必须在自己的学科范围内确定一个研究主题。这个研究主题的确定，至少应该满足以下几个条件。第一，该研究主题应具有高度的争议性，或者该主题受到潜在偏倚的影响且潜在偏倚的影响尚未被系统地研究过。如针对某一主题，已经发表过多篇Meta分析，但彼此间的结论不一致甚至完全相反，这就非常适合进行伞形评价。第二，该研究主题对临床实践有指导意义，特别是能够影响相关临床治疗指南的更新，这样的主题最好。第三，该研究主题下有足够多的Meta分析。通常，数据量越多，统计意义越强，估计的准确性越高，结果的解释能力越强。

2.确定纳入和排除标准：同Meta分析一样，事先设定的纳入和排除标准必须提前登记在开放存储数据库如PROSPERO（https://www.crd.york.ac.uk/PROSPERO）。研究者必须清楚描述评价中的系统评价和Meta分析的类型（观察性研究、随机对照试验、孟德尔随机化试验或全部）。风险因素和结局的定义必须像标准的系统评价中那样明确一定的标准。必须全面报告检索策略和检索的数据库，使得该研究可以重复进行。另外，包含的研究必须有详细的数据，便于统计分析。所包含的研究必须利用有效的工具评价其质量。

例如一项关于胆碱酯酶抑制剂和非甾体抗炎药作为阿尔茨海默病治疗的最新伞形评价研究中明确列出其研究纳入标准^[8]：①研究对象类型：不同年龄组、疾病病程和严重程度的阿尔茨海默病患者；②暴露种类：这些研究包括服用胆碱酯酶抑制剂（ChEIs）多奈哌齐、加兰他敏和利伐他明，NMDA受体拮抗剂MEM或其药物组合的患者，还包括AD患者非甾体抗炎药服用效果的Meta分析；③结局分类：结局指标包括ChEIs、MEM和NSAIDs对AD患者减轻症状的预防效果，也包含药物副作用和毒性；④研究类型：一般包括系统综述和Meta分析，非系统评价中的Meta分析被排除在我们的研究之外；⑤检索策略和选取标准：分两步检索，筛查所有相关研究和综述。首先检索PUBMED上2000年1月至2016年8月间所有英文相关文献，检查标题和摘要，然后搜索参考文献，通过检索交叉参考文献获得其他Meta分析和综述。最后扫描关键词来选取；⑥数据提取和合成：搜集的数据包括饮食因素、年龄、性别、文化程度、研究方案、统计分析方法、结果和结论。有健康对照组的研究也被纳入。综述和Meta分析中应报道比值比（OR）值、相对风险度（RR）值、标准化均数差（SMD）、可信区间（CI）和样本量及风险估计。还要检查系统综述和Meta分析中重叠的参考文献和相关研究。

3.定义风险因素和结局及其关系指标：下一个重要的步骤是界定所要研究的风险因素和结局，并对二者关系进行测量。这里所涉及的风险因素是广义的，包含临床危险因素、环境危险因素、生物标记物、患者干预措施等。通常的做法是采用初始研究中的定义，不进一步分类归纳，避免引入研究文献中未涉及的新风险因素。但是有时候综合归入大类在临床实践中更有意义，例如生物标记物，不是一个一个地评价生物标记物，而是将生物标记物分成大类进行评价，如激素、营养、炎性标记物、IGF/胰岛素系统。研究中的风险因素具体如何界定，需要研究者根据具体情况审慎考虑后综合给出结果。结局的定义和分类也是如此。

系统评价和Meta分析中，不同的研究问题、不同的研究设计、不同的分析方法，都会导致采用的风险因素和结局二者关系的测量指标不同。例如，病例对照研究的Meta分析可以利用标准化均数差如Hedge’s g来比较连续变量，用OR值比较二元变量。同样，比较暴露组和非暴露组发病率的队列研究的Meta分析可以利用发病率的比值如IRR值来分析。因此，我们推荐相应的伞形评价使用相应的关系指标。

这些绝对和相对关系指标可以利用有效的转换方法进行转换^[9-10]，转换后可以进行直接比较，这对于结果的解释很有帮助。

4.报告异质性和潜在偏倚：在完成上述关键步骤后，就像单个Meta分析一样，伞形评价必须研究和报告每个Meta分析包含的研究之间的异质性和潜在偏倚。如果研究之间存在较大异质性，Meta分析结果可能就不能应用于将要进行的研究。也就是说，当异质性较高时，不管研究得出的关系指标值和其P值大小如何，其关系的证据效力变差。如果存在潜在报告偏倚或过度显著性偏倚，情况也是如此。

如果存在较大异质性，比如两项研究针对两组完全不同的患者（如一组为＞65岁，一组为＜50岁），对他们综合进行Meta分析的结果可能不能代表其中任意一组。

潜在报告偏倚的存在意味着如果他们发现一类结果，比如某项治疗措施有效，则及时地发表，而对其他内容未予以公开。如果Meta分析仅仅包含这些研究，结果自然说明该项治疗措施有效，但事实情况可能并非如此简单。研究者可以采用一些工具如漏斗图（funnel plot）、Egger和类似的检验方法来探究潜在报告偏倚^[11]。

最后，潜在过度显著性偏倚的存在意味着有统计意义的研究数量可疑性过多，这可能与报告偏倚和其他问题如数据整理有关。

5.划分证据等级：在伞形评价结论展示阶段，我们要对照证据分级标准，对研究所获得的证据进行分级评价。证据可靠性等级通常按以下标准来划分^[12-15]：

第Ⅰ级，令人信服证据（Convincing）：相关性具有高度的显著性P＜10^-6，病例数＞1 000（或者连续性结果参与者＞20 000例），样本量最大的研究具有显著性结果P＜0.05，95%CI均落在有效一侧，研究异质性不高I²＜50%，无小研究效应P＞0.10，无过度显著性偏倚（P＞0.10）。

第Ⅱ级，高度提示性证据（Highly suggestive）：相关性具有高度的显著性P＜10^-6，病例数＞1 000（或者连续性结果参与者＞20 000例），样本量最大的研究具有显著性结果P＜0.05，不满足第Ⅰ级的标准。

第Ⅲ级，提示性证据（Suggestive）：相关性具有高度的显著性P＜10^-3，病例数＞1 000（或者连续性结果参与者超过20 000例），不满足第Ⅰ、Ⅱ级的标准。

第Ⅳ级，弱证据（Weak）：相关性具有统计学意义P＜0.05，不满足第Ⅰ、Ⅱ、Ⅲ级的标准。

非显著性（Non-significant）：相关性P≥0.05。

但是，由于这些标准中的某些变量是连续变量，就存在人为划分临界点的情况。例如，某研究包含1 001名患者，其风险因素与结局的相关性具有高度的显著性P＜10^-6，按照证据分级标准可能划入第Ⅰ级证据，但另一研究结果其他方面与前面研究完全相同，但只包含1 000名患者，可能划入第Ⅳ级证据。这种情况的出现可能并不常见，但是研究者碰到时必须谨慎解释它们的差别。

三、伞形评价的局限性

在进行某课题的伞形评价过程中，研究者必须始终牢记伞形评价的局限性。伞形评价既有共性局限性，也有单个研究的特定局限性^[10]。

首先，伞形评价只报告研究者关注的、已发表的系统评价或Meta分析。打个比方，某因素有很强的效应，但如果对其研究很少，它可能因涉及患者＜1 000例而只能归入第Ⅳ级证据。甚至，如果在系统评价或Meta分析中都未涉及的风险因素，它可能也排除在伞形评价之外。不过，在大量证据综合研究背景下，不太可能出现某医疗相关领域未被公开系统评价或Meta分析报道的因素^[16]。

另一方面，伞形评价除了包括已发表的评价之外，还应包括公开发表的所有研究，这就需要在伞形评价各细分领域不断检索最新文献。这项工作大大增加了伞形评价的工作耗时。而且，这可能会导致原有系统评价或Meta分析未涉及的新的风险因素亚类的出现，使得最后研究结果的解释更加困难。

最后，伞形评价继承了所包含的研究的大部分研究局限性。举个例子，如果后者评价的是研究因素与发病的关系而不是因果关系，那么伞形评价也只能评估研究因素与发病的关系而非因果关系。

四、案例解读

精神分裂症的终生患病率约为4‰，通常起病于青少年期及成年早期，不仅具有很高的致残性，患者过早死亡的风险也远高于一般人群：年轻时，精神分裂症患者的自杀率更高；随着年龄的增加，心血管代谢疾病逐渐成为这一群体的头号杀手。

过去25年间，探讨精神分裂症环境高危因素的观察性研究呈井喷之势。尽管研究者怀疑，很多因素与精神分裂症谱系障碍患病风险的升高相关，但真正拥有高质量证据者寥寥无几。此外，既往研究还存在信度及潜在偏倚方面的顾虑，致使结果存疑。

来自希腊、巴西、英国、荷兰、西班牙、加拿大等国家的研究者合作开展了一项伞形评价^[12]，对那些纳入观察性研究的Meta分析及孟德尔随机化研究进行了系统评估，旨在探讨精神分裂症谱系障碍的高危因素及外周生物标记物。除了针对单个Meta分析计算了汇总效应量及95%CI外，研究者还评估了小研究效应（small-study effects）及过度显著性偏倚（excess significance bias）。

本次研究共纳入了41项符合入组标准的研究，共98项相关性。其文献检索过程及入组和排除标准见图 3。

图 3 文献检索流程及入组和排除标准

图选项

98项相关性中，62项相关性具有名义上的统计学意义（P＜0.05），72项存在高或非常高的研究间异质性，13项存在小研究效应的证据，18项存在过度显著性偏倚，11项相关性的病例数＞1 000。

基于现有证据，相关性证据信度较高的因素：①人信服证据：母亲产科并发症；②高度提示性证据：成年期应激事件，童年期负性事件（躯体及心理），使用大麻，血清叶酸水平低；③提示性证据：博那病毒（BDV）感染，血清IL-6水平高，血清脑源性神经营养因子（BDNF）水平低，吸烟，血清C反应蛋白（CRP）水平高，父亲年龄大（＞35岁），居住地高度城市化；④其他为弱证据：包含51个相关因素，不具体叙述。见表 2。

表 2 精神分裂症与高危因素相关性(令人信服、高度提示性以及提示性证据)

表选项

此外，仅纳入前瞻性研究的敏感性分析中，大麻使用与童年期负性事件的证据分级仍为高度提示性，而成年期应激事件、产科并发症及血清叶酸水平低则无前瞻性研究证据。见表 3。

表 3 精神分裂症与高危因素相关性（令人信服以及高度提示性证据）的敏感性分析

表选项

研究者最后得出的结论：同样是P＜0.05，证据效力及信度相差很大。本项伞形评价显示，大量高危因素与生物标记物与精神分裂症显著相关，但其中仅有童年期负性事件及使用大麻真正称得上是证据确凿，与罹患精神分裂症谱系障碍关系密切；成年期应激事件、母亲产科并发症、血清叶酸水平低同样具有较高的流行病学信度，但尚未经过前瞻性研究的考验。幸运的是，儿童期虐待及大麻使用均属于潜在可变的因素，改善上述两点有望减少精神分裂症病例。然而，人们仍需开展随机化研究，以进一步明确其因果关系。

五、总结

伞形评价如果操作得当解释合理的话，极有可能获得最全面概括的高质量医学证据。目前，通过Web of Science数据库检索已有300多篇关于伞形评价的文献，涵盖了大部分的医学领域，而且文献数量呈现逐年增多趋势。如同系统评价和Meta分析一样，这将会是下一个非常有潜力的新兴医学证据研究热点领域^{[2, 17]}。

利益冲突 所有作者均声明不存在利益冲突

参考文献

[1]	Sackett DL, Rosenberg WMC, Gray JAM, et al. Evidence based medicine:what it is and what it isn't[J]. BMJ, 1996, 312(7023): 71-72. DOI:10.1136/bmj.312.7023.71

[2]	Papatheodorou S. Umbrella reviews:what they are and why we need them[J]. Eur J Epidemiol, 2019, 34(6): 543-546. DOI:10.1007/s10654-019-00505-6

[3]	Aromataris E, Fernandez R, Godfrey C, et al. Methodology for JBI umbrella reviews[C]//Proceedings of the Joanna Briggs Institute Reviewers' Manual. Australia: The Joanna Briggs Institute, 2014.

[4]	Smith V, Devane D, Begley CM, et al. Methodology in conducting a systematic review of systematic reviews of healthcare interventions[J]. BMC Med Res Methodol, 2011, 11(1): 15. DOI:10.1186/1471-2288-11-15

[5]	Tsagris M, Fragkos KC. Umbrella reviews, overviews of reviews, and Meta-epidemiologic studies: similarities and differences[M]//Biondi-Zoccai G. Umbrella Reviews. Cham: Springer, 2016: 43-54. DOI: 10.1007/978-3-319-25655-9_4.

[6]	Sparks DL, Hunsaker III JC. Neuropathology of sudden infant death (syndrome):literature review and evidence of a probable apoptotic degenerative cause[J]. Childs Nerv Syst, 2002, 18(11): 568-592. DOI:10.1007/s00381-002-0629-5

[7]	Theodoratou E, Tzoulaki I, Zgaga L, et al. Vitamin D and multiple health outcomes:umbrella review of systematic reviews and Meta-analyses of observational studies and randomised trials[J]. BMJ, 2014, 348. DOI:10.1136/bmj.g2035

[8]	Wang CH, Wang LS, Zhu N. Cholinesterase inhibitors and non-steroidal anti-inflammatory drugs as Alzheimer's disease therapies:an updated umbrella review of systematic reviews and Meta-analyses[J]. Eur Rev Med Pharmacol Sci, 2016, 20(22): 4801-4817.

[9]	Chinn S. A simple method for converting an odds ratio to effect size for use in Meta-analysis[J]. Stat Med, 2000, 19(22): 3127-3131. DOI:10.1002/1097-0258(20001130)19:22<3127::AID-SIM784>3.0.CO;2-M

[10]	Fusar-Poli P, Radua J. Ten simple rules for conducting umbrella reviews[J]. Evid Based Ment Health, 2018, 21(3): 95-100. DOI:10.1136/ebmental-2018-300014

[11]	Ioannidis JPA, Munafò MR, Fusar-Poli P, et al. Publication and other reporting biases in cognitive sciences:detection, prevalence, and prevention[J]. Trends Cogn Sci, 2014, 18(5): 235-241. DOI:10.1016/j.tics.2014.02.010

[12]	Belbasis L, Köhler CA, Stefanis N, et al. Risk factors and peripheral biomarkers for schizophrenia spectrum disorders:an umbrella review of Meta-analyses[J]. Acta Psychiatr Scand, 2018, 137(2): 88-97. DOI:10.1111/acps.12847

[13]	Bellou V, Belbasis L, Tzoulaki I, et al. Environmental risk factors and Parkinson's disease:an umbrella review of Meta-analyses[J]. Parkinsonism Relat Disord, 2016, 23: 1-9. DOI:10.1016/j.parkreldis.2015.12.008

[14]	Belbasis L, Bellou V, Evangelou E, et al. Environmental risk factors and multiple sclerosis:an umbrella review of systematic reviews and Meta-analyses[J]. Lancet Neurol, 2015, 14(3): 263-273. DOI:10.1016/S1474-4422(14)70267-4

[15]	Bellou V, Belbasis L, Tzoulaki I, et al. Systematic evaluation of the associations between environmental risk factors and dementia:an umbrella review of systematic reviews and Meta-analyses[J]. Alzheimer's Dement, 2017, 13(4): 406-418. DOI:10.1016/j.jalz.2016.07.152

[16]	Ioannidis JPA. The mass production of redundant, misleading, and conflicted systematic reviews and Meta-analyses[J]. Milbank Q, 2016, 94(3): 485-514. DOI:10.1111/1468-0009.12210

[17]	Ioannidis J. Next-generation systematic reviews:prospective Meta-analysis, individual-level data, networks and umbrella reviews[J]. Br J Sports Med, 2017, 51(20): 1456-1458. DOI:10.1136/bjsports-2017-097621