文章信息
- 杨羽, 曾雪扬, 刘志科, 李志霞, 赵厚宇, 刘佐相, 李沛, 姚晓莹, 贺冰洁, 李克莉, 李燕, 孙凤, 詹思延.
- Yang Yu, Zeng Xueyang, Liu Zhike, Li Zhixia, Zhao Houyu, Liu Zuoxiang, Li Pei, Yao Xiaoying, He Bingjie, Li Keli, Li Yan, Sun Feng, Zhan Siyan
- 疫苗安全性评价文献数据仓库建立及应用前景初探
- Artificial intelligence-based literature data warehouse for vaccine safety
- 中华流行病学杂志, 2022, 43(3): 431-435
- Chinese Journal of Epidemiology, 2022, 43(3): 431-435
- http://dx.doi.org/10.3760/cma.j.cn112338-20210407-00288
-
文章历史
收稿日期: 2021-04-07
2. 北京大学公共卫生学院, 北京 100191;
3. 北京大学医学部教育处, 北京 100191;
4. 中国疾病预防控制中心免疫规划中心, 北京 100050;
5. 北京大学第三医院临床流行病学研究中心, 北京 100191
2. School of Public Health, Peking University, Beijing 100191, China;
3. Department of Education, Peking University Health Science Center, Beijing 100191, China;
4. National Immunization Program, Chinese Center for Disease Control and Prevention, Beijing 100050, China;
5. Research Center of Clinical Epidemiololgy, Peking University Third Hospital, Beijing 100191, China
疫苗接种人群规模十分庞大,且多为健康人群,特别是儿童,针对疫苗开展安全性研究尤为重要。疫苗安全性原始研究包括以自发报告数据为主的被动监测,以及基于多源链接数据或监测网络数据并结合流行病学研究方法的主动监测。被动监测虽有多样化的数据来源与较广的覆盖范围,具有能有效发现罕见的免疫规划错误、不良反应等风险信号的特点;但也具有漏报率高,报告信息不完整,存在报告偏倚,对新出现的、轻微的或迟发的不良反应报告率较低,难以计算不良反应发生率以及评估药品或疫苗与不良反应关联性等劣势。主动监测与被动监测相比,灵敏度更高,获得信息更准确,可评估特定疫苗与不良反应间的因果关系,但却受限于高人力成本、高技术需求、高经费投入和相对有限的人群覆盖范围[1]。
基于文献数据开展疫苗安全性研究(疫苗安全性循证评价)也是保障疫苗上市后安全应用的重要手段。与疫苗安全性原始研究相比,基于文献数据开展疫苗安全性研究具有相当的优势,主要表现在:
1. 应用场景广泛,成本低:基于流行病学设计的原始研究和个案报告虽然可以用于评价疫苗的安全性,但其各有独自的应用条件。例如随机对照研究主要应用于上市前,多针对于急性发生的不良事件;队列研究可以应用于上市后安全性评价,尤其是非急性发生的不良事件,但成本高,实施难度大;病例系列研究由于没有对照组,导致对不良事件发生的解释性不足;而个案报告虽然可以发现罕见的不良事件,但是却由于缺少全部接种人群的数据而无法计算发生率和危险度等。基于文献开展安全性研究可以综合以上几种研究类型的数据或结果,应用场景较为灵活,且实施成本相较原始研究低,易于开展。
2. 可进行实时更新:研究者可以持续对发表的文献进行更新检索和筛选分析,实时更新公开发表的安全性数据。
3. 提高证据可靠性:研究者可以通过对多个小样本研究进行合并分析或亚组分析,解决研究之间的结果分歧,提升研究证据的可靠性;可以通过对文献质量进行标准化评估,筛选高质量文献纳入数据分析,获得更可靠的分析结果。
4. 发现罕见不良反应信号:从文献数据中可以更早地发现某些安全性信号,尤其是在原始研究中由于样本量等限制无法及时发现的罕见不良反应信号。
文献数据在疫苗安全性研究中发挥的积极作用已有先例,已被视为疫苗安全性监测的必要组成部分。例如流感疫苗接种相关的格林巴利综合征,最早的报告出现在1979年发表的文献中[2],并在此之后引起了研究者和疾病预防控制部门的广泛关注和深入研究。2013年国家药品不良反应监测中心印发的《疫苗生产企业不良事件报告指南》中,也明确规定疫苗生产企业应定期对文献报告的疫苗相关不良反应进行整理和报告。
二、人工智能技术加速文献数据处理传统基于文献数据开展研究的方式耗时费力,极大拖慢了研究数据分析的进程,无法跟上快速积累的文献数据的发表速度。一项原始研究可能在发表后2.5年甚至6.5年才能被纳入系统文献综述[3],完成一个系统文献综述需要熟练的研究者超过1 000 h的投入[4],而多数系统文献综述的内容在进行最终系统文献检索8个月后就已经过时了[5]。其中的主要原因之一是由于传统的文献处理方式过于依靠人工,完全没有将文献的处理工作流程化和自动化,限制了文献处理的速度。
自然语言处理(natural language processing,NLP)技术与机器学习(machine learning,ML)技术的飞速发展给文献数据的自动化处理(或半自动化)带来了契机。系统文献综述过程中的文献查找和去重,标题和摘要的筛选、研究的全文获取、数据提取甚至Meta分析结果的整理都可以用计算机进行自动化处理,节省人工处理的时间和精力。例如大型系统文献综述通过使用自动化工具可以最高减少49%~94%的人工筛选工作量[6-7]。NLP技术和ML技术的应用在大幅缩减系统文献综述所需人工工作量和工作时间的同时,也提升了文献数据分析的速度,为建立实时系统文献综述(living systematic review)提供了技术上的可能。现已有研究者对系统文献综述中可以应用的基于NLP技术和ML技术的自动化工具包进行了系统梳理,建立了“系统文献综述工具箱”(systematic review toolbox)[8],方便系统文献综述的研究者根据自身研究分阶段的需要,查询和选择不同类型的工具。也有学者联合成立系统文献综述自动化国际合作组织(the International Collaboration for the Automation of Systematic Reviews,ICASR)并发布了《维也纳原则》(the Vienna Principles),以便不同系统文献综述步骤开发的工具包进行统一和整合[9]。
三、文献数据仓库是基于文献数据研究发展的新趋势即便人工智能技术可以提升文献数据的处理速度,但是文献数据如果不能进行集合和共享,在每次对同一个主题进行更新综述时,都必须重复全部的文献综述流程,包括处理之前已经被系统综述纳入的文献数据,将造成研究时间和人力资源的浪费,也限制了对文献数据价值的挖掘。文献数据仓库通过集中整理发表文献数据,可以解决浩如烟海的医学文献带来的信息过载问题,从而降低学术研究的时间和人力成本,提高文献数据利用率,及时为相关专业领域的医护人员、研究人员和决策人员提供关键的信息或数据,还可用于发现知识空白或研究缺口,为接下来的研究工作提供潜在的方向指引。
文献数据仓库的巨大作用已经在不同的医学研究领域展现。以新型冠状病毒肺炎(COVID-19)疫情防控为例,文献数据仓库就为快速应对重大公共卫生事件提供了重要数据支持。为更快更好地应对从2020年开始蔓延全球的疫情,WHO、美国国立医学图书馆(National Library of Medicine,NLM)等机构纷纷建立了开放的新型冠状病毒文献数据仓库。以NLM基于PubMed建立的LitCovid数据库为例[10]。通过每日更新在PubMed中查询到与COVID-19相关的研究文献,LitCovid数据库已经被用于满足证据合成、药物再利用和诊断指南制定等多方面的信息需求。同时,LitCovid数据库还支持大规模数据驱动的知识发现,通过对文献数据进行自然语言处理和概念注释,为建立COVID-19相关知识图谱提供数据基础。文献数据仓库还被用于对COVID-19相关研究现状进行快速计量分析,为后续研究者提供方向和思路参考。例如艾伦人工智能研究所(the Allen Institute for AI)牵头组织并发布了COVID-19开放研究数据集(COVID-19 Open Research Dataset,CORD-19)[11]。CORD-19纳入了COVID-19和相关冠状病毒(如SARS和MERS)的出版和预印本文献数据,旨在通过丰富的元数据集合和结构化全文论文,促进文本挖掘和信息检索系统的开发。Abd-Alrazag等[12]基于CORD-19对新型冠状病毒的研究进行了全面的文献计量学分析和概述,使用聚类算法根据论文摘要的相似性对已发表的文章进行分组,以确定研究热点和当前研究方向。研究最终从CORD-19检索到的196 630份文献中筛选出28 904份文献纳入分析。通过分析确认了1 515项调查、733项系统评价、512项队列研究、480项荟萃分析和362项随机对照试验;还归纳出19个不同的研究主题,其中最主要的主题是公共卫生应对,其次是COVID-19大流行期间的临床护理实践、临床特征和风险因素以及其传播的流行模式。研究的结果证实了基于人工智能的文献计量分析具有快速探索大型学术出版物语料库的潜力,并提示出版商应该通过开发一种跟踪单个出版物和独特作者的演变的方法来避免数据中的噪音。Oniani等[13]基于CORD-19的链接数据版本(CORD-19-on-FHIR),建立共现网络嵌入结构,采用6种算法(决策树、逻辑回归、支持向量机、随机森林、naive Bayes和多层感知器)来评价链路预测的性能。结果表明,通过建立的共现网络嵌入结构能够提取出COVID-19与冠状病毒传染病的显著相关性,并检测到COVID-19内隐关联,证明了其在发现COVID-19新的疾病管理和治疗计划方面的潜在用途。
文献数据仓库的建设是未来促进循证医学发展和文献数据开放共享的重要途径之一。系统文献综述是通过明确、透明、可重复的步骤对特定主体的原始研究进行综合,为临床医学提供高质量证据的工具。在过去十年中,系统文献综述的数量激增了近三倍。开展新主题的系统文献综述或对已发表的系统文献综述进行更新,通常是由不同的研究团队独立完成,因此都需要对文献进行重新检索和筛选,无法对之前的数据进行复用,造成了人力和时间资源的大量重复投入。为应对这类问题,美国医疗保健研究与质量局(the Agency for Healthcare Research and Quality,AHRQ)自2012年开始建立系统综述文献数据仓库(the Systematic Review Data Repository,SRDR),旨在公开共享系统文献综述使用的文献数据,促进全球的学术合作[14]。到2019年,已有148个系统文献综述的数据在SRDR上公开共享,包含来自超过15 000个研究的数据。
综上所述,疫苗接种是预防和控制传染性疾病成本效益最高的措施。疫苗的安全性问题不仅与受种人群的生命安全息息相关,也关系传染病防控和公众健康。基于文献数据开展疫苗安全性研究是保障疫苗安全使用的重要手段。利用人工智能技术,建立高质量的、持续更新的大规模疫苗安全性评价文献数据仓库,将有助于快速可靠地衡量疫苗的安全性风险,确保疫苗接种收益和风险的动态平衡,降低受种者因为疫苗安全性问题带来的个人风险,保持公众对疫苗接种的信心。
四、疫苗安全性评价文献数据仓库的建立流程1. 文献检索和筛选过程:
(1)检索途径与检索策略:①检索途径:检索数据库包括英文数据库(OVID、Scopus、Web of Science、Cochrane Library、ClinicalTrails.org)和中文数据库(万方数据知识服务平台、中国知网、维普、SinoMed)。检索时间截至2020年11月29日。②检索策略:检索策略由a和b构成。ⓐ疫苗相关检索词:中文表达为疫苗、接种、免疫;英文表达为vaccines、vaccination、immunization。ⓑ安全性相关检索词:中文表达为安全性、不良反应、副反应、副作用、风险、不良结局、伤害;英文表达为safe、safety、side effect、side effects、side event、side events、side reaction、side reactions、undesirable effect、undesirable effects、undesirable event、undesirable events、undesirable reaction、undesirable reactions、undesirable outcome或undesirable outcomes、treatment emergent、drug reaction、drug reactions、adr、adrs、unexpected effect、unexpected effects、unexpected event、unexpected events、unexpected reaction、unexpected reactions、unexpected outcome、unexpected outcomes、tolerability、toxicity。
(2)纳入/排除标准:①纳入标准:ⓐ疫苗,用于人体,在人体产生了不良反应;ⓑ疫苗上市前的动物试验。疫苗为人类使用的,且报告了动物试验后出现了不良反应;ⓒ疫苗安全性的细胞基础研究。围绕安全性问题开展的发热、过敏、感染、休克、癫痫等的机制研究。②排除标准:ⓐ研究非人体疫苗,如兽类疫苗、非疫苗产品等其他干预措施;ⓑ研究结局非疫苗相关不良事件,如有效性、经济学评价等其他结局;ⓒ属于疫苗的安全性研究,但研究为Ⅰ或Ⅱ期临床试验(Phase 1/2);ⓓ疫苗安全性研究的文献综述(review/overview/Meta-analysis);ⓔ关于疫苗安全的述评(如reply/opinion)、专家意见、产品宣传等;ⓕ非疫苗安全性研究(如免疫原性、接种率、免疫规划政策、疫苗研制等);ⓖ重复发表的研究;ⓗ摘要缺失。
(3)检索结果:最终初检41万余篇,两轮筛选后最终纳入23 304篇,已经初步建成了全球疫苗安全性的中英文文献数据仓库,现正逐步依照表 1所示抽取内容开展数据抽取工作。
(4)自动化工具:疫苗安全性评价文献数据仓库使用北京大学第三医院与北京诺道认知医学科技有限公司共同开发的EBM AI REVIEWER系统进行了文献的检索和筛选。
2. 管理团队和共享机制:
疫苗安全性评价文献数据仓库管理团队的核心成员由来自北京大学公共卫生学院流行病学与统计学方面的专业人员组成,并联合了药学、机器学习和自然语言处理等领域的专业团队。疫苗安全性评价文献数据仓库目前已经在中国队列共享平台(http://chinacohort.bjmu.edu.cn/)的“文献仓库”版块上线,并公开了包括检索截止日期、检索平台、纳入标准、排除标准等基本信息[15]。未来会在中国队列共享平台的基础框架下,基于平台的数据共享机制进行数据共享和开放。
3. 下一步工作计划:
(1)特定疫苗的不良事件的系统评价:基于已形成的文献仓库,可根据决策需求对特定种类的疫苗进行系统评价,如百白破类疫苗、含麻类疫苗、HPV疫苗等。目前已完成百白破类疫苗免疫后不良事件文献子库的抽取,并针对百白破类疫苗接种后导致脑病/脑炎这一不良反应事件,下载了全文并进行信息提取,并已完成“百白破类疫苗——脑病/脑炎”的系统评价。
(2)特定不良事件的分类管理:基于已形成的文献仓库,对不同种类的不良事件进行分类管理。目前已初步完成了对过敏性紫癜、臂丛神经炎这两个不良反应事件的分类。
(3)文献仓库更新:基于已形成的文献仓库数据,以6个月为周期进行文献的全面更新。
五、疫苗安全性评价文献数据仓库的应用前景随着突发传染病疫情的不断出现,疫苗作为传染病预防的重要措施,其安全性与有效性同等重要。另一方面,与疫苗安全问题相关的疫苗犹豫等现象很可能影响疫苗接种的覆盖程度,导致原已控制的传染病又死灰复燃。通过系统检索和筛选,并进行定期持续更新的疫苗安全性评价文献数据仓库对推动疫苗安全性问题的相关研究具有重要作用。疫苗安全性评价文献数据仓库可以用于:
1. 构建疫苗安全性知识图谱,可用于支持疫苗不良反应信息快速检索和查询、疫苗安全性问答系统开发、不良反应的推理和预测、不良反应监测的决策支持等。
2. 通过定期更新检索、筛选文献、文献归类(疫苗类型、研究类型、地区、人群等)、标引文献(事件对)等,构建实时的高质量疫苗安全性评价文献数据源,实施实时系统文献综述,定期动态更新证据。
3. 基于文献仓库实时查询地区每类疫苗不同地区、时间和人群的相关免疫后不良事件的文献报道情况,为政策制定提供数据支撑。
4. 为国家免疫后不良事件目录的制定和更新提供文献证据来源,梳理全球免疫后不良事件的文献和证据质量的全貌。
5. 汇总真实世界研究证据,评估上市前难以观察到的长期不良事件,对上市后疫苗的获益/风险再评估进行指导。
6. 弥补被动监测的不足,可计算特定疫苗事件对的条件累计发生率。
7. 开展疫苗安全性评价的方法学研究。
8. 结合人工智能技术,开发和优化系统文献综述的文献信息提取和处理的自动化工具,减少系统文献综述的人工和时间成本,提高分析效率等。
疫苗安全性问题引起的社会关注在近几年有增无减。基于文献数据不断开展疫苗安全性相关研究是保障疫苗安全应用的重要手段。建立持续更新的全面的疫苗安全性评价文献数据仓库可以为疫苗安全性研究和免疫接种政策制定提供重要的高质量数据来源和证据支持。在中国队列共享平台的数据共享机制框架中,对疫苗安全性文献数据进行开放共享,将促进相关方法学研究的发展,为进一步应用人工智能技术开发相关临床辅助决策或数据分析工具提供数据基础。
利益冲突 所有作者声明无利益冲突
志谢 感谢中国疾病预防控制中心对本研究工作的支持。感谢北京大学医学部2016-2019级参与该文献库文献筛选与归类的本科学生对本研究工作的支持
[1] |
蔡婷, 刘立立, 姚晓莹, 等. 国外疫苗安全主动监测系统的概括性评价[J]. 中华预防医学杂志, 2019, 53(7): 724-730. Cai T, Liu LL, Yao XY, et al. Scoping review of active surveillance systems for vaccine safety world-wide[J]. Chin J Prev Med, 2019, 53(7): 724-730. DOI:10.3760/cma.j.issn.0253-9624.2019.07.013 |
[2] |
Schonberger LB, Bregman DJ, Sullivan-Bolyai JZ, et al. Guillain-Barre syndrome following vaccination in the National Influenza Immunization Program, United States, 1976-1977[J]. Am J Epidemiol, 1979, 110(2): 105-123. DOI:10.1093/oxfordjournals.aje.a112795 |
[3] |
Elliott JH, Turner T, Clavisi O, et al. Living systematic reviews: an emerging opportunity to narrow the evidence-practice gap[J]. PLoS Med, 2014, 11(2): e1001603. DOI:10.1371/journal.pmed.1001603 |
[4] |
Allen IE, Olkin I. Estimating time to conduct a meta- analysis from number of citations retrieved[J]. JAMA, 1999, 282(7): 634-635. DOI:10.1001/jama.282.7.634 |
[5] |
Beller EM, Chen JKH, Wang ULH, et al. Are systematic reviews up-to-date at the time of publication?[J]. Syst Rev, 2013, 2: 36. DOI:10.1186/2046-4053-2-36 |
[6] |
Tsou AY, Treadwell JR, Erinoff E, et al. Machine learning for screening prioritization in systematic reviews: comparative performance of Abstrackr and EPPI-Reviewer[J]. Syst Rev, 2020, 9(1): 73. DOI:10.1186/s13643-020-01324-7 |
[7] |
人工智能助力循证医学研究: 北医三院与诺道医学联合研发产品EBM AI-Reviewer正式发布[EB/OL]. (2019-11-30)[2021-03-31]. http://www.medicinovo.com/index.php?m=content&c=index&a=show&catid=19&id=117.
|
[8] |
Marshall C, Brereton P. Systematic review toolbox: a catalogue of tools to support systematic reviews[C]. Proceedings of the 19th International Conference on Evaluation and Assessment in Software Engineering. New York: ACM, 2015: 1-6. DOI: 10.1145/2745802.2745824.
|
[9] |
Beller E, Clark J, Tsafnat G, et al. Making progress with the automation of systematic reviews: principles of the International Collaboration for the Automation of Systematic Reviews (ICASR)[J]. Syst Rev, 2018, 7(1): 77. DOI:10.1186/s13643-018-0740-7 |
[10] |
Chen QY, Allot A, Lu ZY. LitCovid: an open database of COVID-19 literature[J]. Nucl Acids Res, 2021, 49(D1): D1534-1540. DOI:10.1093/nar/gkaa952 |
[11] |
Wang LL, Lo K, Chandrasekhar Y, et al. CORD-19: the Covid-19 open research dataset[Z]. ArXiv: 2004.10706, 2020.
|
[12] |
Abd-Alrazaq A, Schneider J, Mifsud B, et al. A comprehensive overview of the COVID-19 literature: machine learning-based bibliometric analysis[J]. J Med Int Res, 2021, 23(3): e23703. DOI:10.2196/23703 |
[13] |
Oniani D, Jiang GQ, Liu HF, et al. Constructing co-occurrence network embeddings to assist association extraction for COVID-19 and other coronavirus infectious diseases[J]. J Am Med Inform Assoc, 2020, 27(8): 1259-1267. DOI:10.1093/jamia/ocaa117 |
[14] |
Saldanha IJ, Smith BT, Ntzani E, et al. The Systematic Review Data Repository (SRDR): descriptive characteristics of publicly available data and opportunities for research[J]. Syst Rev, 2019, 8(1): 334. DOI:10.1186/s13643-019-1250-y |
[15] |
Sun YX, Pei ZC, Zhao HY, et al. Data resource profile: China Cohort Consortium (CCC)[J]. Int J Epidemiol, 2020, 49(5): 1436-1436 m. DOI:10.1093/ije/dyaa102 |