中华流行病学杂志  2020, Vol. 41 Issue (10): 1595-1600   PDF    
http://dx.doi.org/10.3760/cma.j.cn112338-20200331-00479
中华医学会主办。
0

文章信息

彭志行, 陈旭峰, 胡钦勇, 胡家才, 赵子平, 张明智, 邓思婷, 徐俏俏, 夏彦恺, 李勇.
Peng Zhihang, Chen Xufeng, Hu Qinyong, Hu Jiacai, Zhao Ziping, Zhang Mingzhi, Deng Siting, Xu Qiaoqiao, Xia Yankai, Li Yong
新型冠状病毒肺炎患者重症转归风险预测
Prediction of severe outcomes of patients with COVID-19
中华流行病学杂志, 2020, 41(10): 1595-1600
Chinese Journal of Epidemiology, 2020, 41(10): 1595-1600
http://dx.doi.org/10.3760/cma.j.cn112338-20200331-00479

文章历史

收稿日期: 2020-03-31
新型冠状病毒肺炎患者重症转归风险预测
彭志行1 , 陈旭峰2 , 胡钦勇3 , 胡家才3 , 赵子平1 , 张明智1 , 邓思婷1 , 徐俏俏1 , 夏彦恺1 , 李勇2     
1. 南京医科大学公共卫生学院 211166;
2. 南京医科大学第一附属医院 211166;
3. 武汉大学人民医院 430060
摘要: 目的 建立新型冠状病毒肺炎(COVID-19)患者转归为重症的预测模型,为早期、动态地监测患者转归提供更加全面、准确、及时的指标。方法 基于患者的入院检测指标和轻、重症分型,以及检测指标的动态改变(即入院后两次检测指标测量值差)等输入变量,使用XGBoost方法建立预测模型,评估患者在入院之后转归为重症的风险。然后将入选的患者从入院随访至出院,观察其病情转归情况,对模型预测结果进行验证。结果 在100例COVID-19患者的训练集中,筛选出具有较高评分的预测变量并建立模型,计算出预测变量取值的高风险范围:血氧饱和度 < 94%、外周血白细胞计数>8.0×109个、SBP变化 < -2.5 mmHg(1 mmHg=0.133 kPa)、心率>90次/min、有多发小斑片影、年龄>30岁、心率变化 < 12.5次/min。训练集的模型预测结果的敏感率为61.7%,漏诊率为38.3%;使用模型对测试集进行预测的敏感性为75.0%,漏诊率为25.0%。结论 与传统的预测判断方法(即采用入院时第一次检测的指标和重症入选条件进行评估患者是否为轻、重症)相比,模型的预测考虑到了COVID-19患者的基线生理指标与病情变化指标,因此能够全面、准确地预测患者重症转归的风险,减少重症患者的漏诊率。
关键词: 新型冠状病毒肺炎    重症转归    预测模型    
Prediction of severe outcomes of patients with COVID-19
Peng Zhihang1 , Chen Xufeng2 , Hu Qinyong3 , Hu Jiacai3 , Zhao Ziping1 , Zhang Mingzhi1 , Deng Siting1 , Xu Qiaoqiao1 , Xia Yankai1 , Li Yong2     
1. School of Public Health, Nanjing Medical University, Nanjing 211166, China;
2. The First Affiliated Hospital of Nanjing Medical University, Nanjing 211166, China;
3. People's Hospital of Wuhan University, Wuhan 430060, China
Abstract: Objective To establish a new model for the prediction of severe outcomes of COVID-19 patients and provide more comprehensive, accurate and timely indicators for the early identification of severe COVID-19 patients. Methods Based on the patients' admission detection indicators, mild or severe status of COVID-19, and dynamic changes in admission indicators (the differences between indicators of two measurements) and other input variables, XGBoost method was applied to establish a prediction model to evaluate the risk of severe outcomes of the COVID-19 patients after admission. Follow up was done for the selected patients from admission to discharge, and their outcomes were observed to evaluate the predicted results of this model. Results In the training set of 100 COVID-19 patients, six predictors with higher scores were screened and a prediction model was established. The high-risk range of the predictor variables was calculated as: blood oxygen saturation < 94%, peripheral white blood cells count >8.0×109, change in systolic blood pressure < -2.5 mmHg, heart rate >90 beats/min, multiple small patchy shadows, age >30 years, and change in heart rate < 12.5 beats/min. The prediction sensitivity of the model based on the training set was 61.7%, and the missed diagnosis rate was 38.3%. The prediction sensitivity of the model based on the test set was 75.0%, and the missed diagnosis rate was 25.0%. Conclusions Compared with the traditional prediction (i.e. using indicators from the first test at admission and the critical admission conditions to assess whether patients are in mild or severe status), the new model's prediction additionally takes into account of the baseline physiological indicators and dynamic changes of COVID-19 patients, so it can predict the risk of severe outcomes in COVID-19 patients more comprehensively and accurately to reduce the missed diagnosis of severe COVID-19.
Key words: COVID-19    Severe outcome    Prediction model    

2019年12月8日以来,湖北省武汉市连续报告了多例不明原因肺炎病例。2020年1月7日,中国CDC从患者的咽拭子样本中鉴定出一种新型冠状病毒。2020年2月8日国家卫生健康委员会将新型冠状病毒感染的肺炎命名为“新型冠状病毒肺炎”,2月21日国家卫生健康委员会决定将“新型冠状病毒肺炎”英文名称修订为“COVID-19”,与WHO命名保持一致,中文名称保持不变[1]。COVID-19是一种新发传染病,人群普遍缺乏免疫力,所以具有人群易感性。患者典型的症状为发热、咳嗽或腹泻等。病毒主要侵犯肺部,造成呼吸功能障碍,严重可导致患者死亡。有研究表明,截至2月10日,全国(湖北省除外)COVID-19病死率为0.88%,湖北省(武汉市除外)病死率为1.70%,武汉市病死率为4.05%[2]。WHO总干事于3月11日在日内瓦宣布,经过疫情评估后认为,COVID-19已构成“大流行病”[3]。全球多个国家暴发不同程度的疫情,截至3月23日,全球COVID-19确诊病例已经超过30万例[4]。我国成功的抗疫经验将会对世界各国战胜疫情产生积极影响,因此,相关研究有着重要的现实意义。随着疫情的发展,涉及的病例越来越多,且病情复杂多变,导致临床救治负担越来重。2020年2月3日晚,为落实“四集中”要求,解决床位问题,加快病房周转率,重、轻症分流机制形成。为确保确诊患者应收尽收,武汉市政府紧急决定在江汉区、武昌区、东西湖区建设速成式“方舱医院”用于收治COVID-19轻症患者[5]。方舱医院集隔离、监测、治疗等功能于一体,主要用于轻型患者的救治[6],也可及时鉴别重症转归患者并报送至定点医院救治。

早期研究发现重型、普通型和轻型患者的比例分别为25.5%、69.9%和4.5%,合并基础疾病的老年男性病死率更高;重型患者病死率高于普通型和轻型;诊断时间越晚(发病至诊断时间超过5 d),死亡风险越高[2]。因此,能够及时、准确地识别重症患者,开展针对性的治疗,有利于医疗资源的合理分配、避免资源浪费,更有利于降低重症患者的死亡率。这促使了全方位方舱支持平台的出现,既可以在临床上指导治疗与转诊,在患者多、医患比小的情况下,高效、快速地预测疾病转归结局,为广大医务人员提供重要参考;又可以为广大患者提供顺畅的医患沟通渠道和心理健康支持。对重症患者转归的传统预测方法是采用入院时第一次检测的指标和重症入选条件区分轻、重症,该法虽简便及时,但未能综合考虑患者特征及病情的动态变化。本研究建立重症患者转归的预测模型,利用COVID-19患者的临床及随访资料,评价重症患者的转归风险,为早期发现重症转归的患者提供便捷、准确、科学的依据。

资料与方法

1.研究对象:武汉市方舱医院2020年1月27日至3月8日的病例,共有2个中心参与此项研究。纳入的人群为通过实时荧光RT-PCR检测新型冠状病毒核酸阳性或者血清新型冠状病毒特异性IgM抗体和IgG抗体检测阳性则确诊为COVID-19病例。重症病例入选的条件参考《新型冠状病毒肺炎诊疗方案(试行第六版)》[7](符合以下任意一条):血氧饱和度≤93%;呼吸频率≥30次/min;动脉血氧分压(PaO2)/吸氧浓度(FiO2)≤300 mmHg(1 mmHg=0.133 kPa)。本研究通过南京医科大学第一附属医院伦理委员会审查(审批文号:2020-SR-106)。

2.预测指标纳入:所有纳入病例入院检测的参数共有49个,包括人口统计学特征、生命体征、临床检验监测参数和CT参数、疾病和治疗特征、临床特征和病理变量(表 1)。

表 1 训练集和测试集预测变量的比较

3. XGBoost预测模型:XGBoost是一种机器学习技术[8],通过组装弱预测模型(通常是决策树)来构建预测模型。在训练过程中,以梯度增强的方式生成一系列决策树,即根据当前的决策树递进生成下一个决策树,以更好地预测结果[9]。经过训练,可得到由一系列决策树组成的风险预测系统。在应用过程中,输出预测风险是每个决策树的累计得分,表示为预测结果的概率。XGBoost有两个特别的优势。首先,XGBoost提供每个变量的重要度评分,代表了该变量在预测模型中的权重。其次,XGBoost算法可以通过为每个树节点中缺失的值添加默认方向来自动处理缺失数据,默认方向从训练数据中学习获得。当验证数据中存在缺失值时,将该实例分类为默认方向。而这个优势是其他机器学习方法和传统统计模型无法比拟的,因为这些模型不能够自动处理缺失值,在这些模型中,通常用平均值替代的方式填充缺失值[10]

4.分析策略:基于患者的入院检测指标和初步轻、重症分型,以及入院指标的动态改变(即入院后第二次测量值减去第一次测量值)等输入变量,建立预测模型,评估患者在入院之后患重症的风险,既考虑到患者基础指标(如初步轻、重症分型、生命体征和临床检测等),又包含有患者入院后的动态指标(如心率变化、血压变化和临床检测指标变化等)。入选的患者从入院随访至出院,观察其病情转归,对模型预测结果进行验证。

5.统计学分析:根据COVID-19诊断标准,本研究共纳入143例患者。随机抽取100例患者作为训练集,其余43例患者的数据作为测试集。针对49个变量,基于变量的高预测能力和广泛可获取性原则,结合受试者特征曲线(ROC)和数据缺损率筛选出用于疾病转归预测的候选变量,候选预测变量需满足以下条件:①AUC>0.6,②数据缺损率<50%。将初步筛选后的预测变量作为输入项,带入XGBoost中进行训练,将患者转归作为输出。将原始训练集数据(共100例)平均分成5组,将每个子集数据分别当作一次验证集,其余的4组子集数据作为训练集,会由此得到5个模型,用这5个模型最终的验证集的分类准确率的平均数作为五折交叉验证模型下的性能指标。在模型性能的评价指标中,除了准确率之外,临床上更为关注的指标是敏感度,即在金标准判断重症(阳性)人群中,检测出阳性的概率,这样能做到尽可能地避免重症患者的漏诊。采用传统方法作为对照,即采用入院时第一次检测的指标和重症入选条件进行评估患者是否为轻、重症,与XGBoost预测模型进行对比,以判断预测模型的优劣性。

结果

1.纳入人群基线数据:根据入院时间将纳入的人群分为训练集和测试集,见表 1。训练集总体数据的缺失率为32.02%,测试集为37.54%。身体测量指标变化信息见表 2

表 2 指标变化详细信息

2.筛选预测变量:初步利用ROC进行初步筛选,候选预测变量包括血氧饱和度、外周血白细胞计数、SBP变化、心率、心率变化、多发小斑片影、年龄和体温变化。预测变量的缺失率见表 3

表 3 预测变量数据缺失率

然后将XGBoost模型中所用的输入变量进行重要性评分(图 1),最终入选的变量(按照重要性排序)为年龄、血氧饱和度、心率变化(入院后第二次测量值减去第一次测量值)、心率、SBP变化(入院后第二次测量值减去第一次测量值)、外周血白细胞计数。变量体温变化虽具有较高的预测能力,但与其他预测变量具有共线性或者较高的相关系数,所以未纳入模型。

图 1 XGBoost模型中候选变量的重要度评分

3.建立模型:根据训练集的数据将筛选出来的变量进行模型的构建(图 2)。模型中预测变量高风险的范围,见表 4

图 2 XGBoost模型结构示意图
表 4 各变量定义及高风险值范围

4.五折交叉验证:在训练集(n=100)中,使用传统方法(即采用入院时第一次检测的指标和重症入选条件进行评估患者是否为轻/重症)进行分类,可得到85.0%的预测准确率,31.8%的预测敏感性,即确诊的22例重症患者中只有7例被检测出来,漏诊率为68.2%。而使用模型预测方法的敏感率为61.7%,漏诊率为38.3%(表 5)。

表 5 训练集数据预测模型与传统方法比较

除训练集和测试集外,对1位53岁的患者进行病情转归的预测,前期血氧饱和度为94%,外周血白细胞计数6.54×109/L,SBP下降26 mmHg,心率为104次/min,有多发小斑片影,经过模型预测,该患者转变为重症的可能性较大,而实际上,该患者最终也转为重症患者。

5. XGBoost模型结果与传统方法对比:将模型应用到测试集数据中(n=43),并与传统方法进行对比(表 4)。使用传统方法进行分类,可得到83.7%的预测准确率,12.5%的预测敏感性,即确诊的8个重症患者中只有1名患者被检测出来,漏诊率为87.5%。而使用模型预测方法的敏感性为75.0%,漏诊率为25.0%(表 6)。

表 6 测试集中传统方法的筛检四格表
讨论

本研究采用机器学习算法,基于入院信息和指标动态变化,建立患者转归预测模型,可以为早期、动态地识别与监测重症患者提供重要的风险指标,与传统方法(即入院时第一次检测的指标和重症入选条件进行评估患者是否为轻重症)相比具有更高的准确性和敏感性。使用传统方法对训练集和测试集的数据进行病程转归的预测,发现在训练集的100例病例中,能够得到85.0%的预测准确率,31.8%的预测敏感性,即确诊的22例重症患者中只有7例被预测出来,漏诊率高达68.2%。在测试集中,其结果是在8例确诊的重症患者中,仅预测出1例重症患者,漏诊率高达87.5%,这极大地影响了对即将转归的危重患者的识别并可能耽误及时救治,导致病情的延误,提高了死亡率。

本研究借助人工智能等多种算法,最终选择使用XGBoost预测模型,筛选出6个变量:年龄、血氧饱和度、心率变化、心率、SBP变化、外周血白细胞计数。这6项指标的重要性从高到低排列,每项指标的权重也呈一定的递减趋势。已有研究显示,在重症死亡病例中,大多数为≥60岁患者,且患有基础性疾病,如高血压、心血管疾病和糖尿病等,这与我们模型预测变量的结果相符合[2]。从生物学角度来说肺炎患者通气受限造成缺氧,血氧饱和度下降,为保证组织供氧,引起心率代偿性加快;同时,发热状态下体液流失可能导致血容量减少,引发血压下降,此时回心血量减少,每搏输出量减少,为维持心输出量,也会引起心率代偿性加快。白细胞计数是临床常见的炎症反应指标,细菌性感染时通常会升高,病毒性感染时常表现为不升高或下降[11]。感染新型冠状病毒时白细胞计数的上升,可能是由肺部并发细菌性感染或缺氧引起的炎症反应导致[12]。肺功能随年龄增长和炎症程度加重而下降[13]。进行模型构建后,得到训练集模型预测结果的敏感率为61.7%,漏诊率仅为38.3%。相较于传统的预测方法,构建模型的预测大大提高了对病情转归预测的敏感性,更能够及时准确地发现病例,避免疫情期间医疗资源的浪费,并可及时采取一系列针对性的措施。

综上所述,使用XGBoost预测模型对COVID-19病情转归进行预测,能够帮助医务人员方便、快捷、准确地评估患者的病情变化,从而为早期、动态地发现COVID-19重症转归提供参考。但本研究的样本量有限,对于结局的预测未能达到绝对的理想范围,而且由于XGBoost有许多超参数,因此它的优化可能是一项非常艰巨的任务[14]。不过模型本身也是不断迭代、不断进步的,随着新的数据加入,分析结果将会越来越精确。

利益冲突  所有作者均声明不存在利益冲突

参考文献
[1]
国家卫生与健康委员会.国家卫生健康委关于修订新型冠状病毒肺炎英文命名事宜的通知[EB/OL]. (2020-02-21)[2020-03-29]. http://www.gov.cn/zhengce/zhengceku/2020-02/22/content_5482019.htm. National Health Commission. Notice of the National Health Commission on revising the English naming of new coronavirus pneumonia[EB/OL]. (2020-02-21)[2020-03-29]. http://www.gov.cn/zhengce/zhengceku/2020-02/22/content_5482019.htm.
[2]
中华预防医学会新型冠状病毒肺炎防控专家组. 新型冠状病毒肺炎流行病学特征的最新认识[J]. 中华流行病学杂志, 2020, 41(2): 139-144.
Special Expert Group for Control of the Epidemic of Novel Coronavirus Pneumonia of the Chinese Preventive Medicine. An update on the epidemiological characteristics of novel coronavirus pneumonia(COVID-19)[J]. Chin J Epidemiol, 2020, 41(2): 139-144. DOI:10.3760/cma.j.issn.0254-6450.2020.02.002
[3]
世界卫生组织.世卫组织总干事2020年3月11日在2019冠状病毒病(COVID-19)疫情媒体通报会上的讲话[EB/OL]. (2020-03-11)[2020-03-29]. https://www.who.int/zh/dg/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19-11-march-2020. World Health Organization. WHO Director-General's speech at the media briefing on the coronavirus disease (COVID-19) outbreak 2019 on March 11, 2020[EB/OL]. (2020-03-11)[2020-03-29]. https://www.who.int/zh/dg/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19-11-march-2020.
[4]
World Health Organization. Coronavirus disease 2019(COVID-19) situation report-63[EB/OL]. (2020-03-11)[2020-03-29]. https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200323-sitrep-63-covid-19.pdf?sfvrsn=b617302d_2.
[5]
中冶集团火速建设武汉市洪山体育馆速成式"方舱医院"[EB/OL]. (2020-02-04)[2020-03-29]. https://baijiahao.baidu.com/s?id=1657596988377026922&wfr=spider&for=pc.
China Metallurgical Group quickly builds a "square cabin hospital" in Wuhan Hongshan Stadium[EB/OL]. (2020-02-04)[2020-03-29]. https://baijiahao.baidu.com/s?id=1657596988377026922&wfr=spider&for=pc.
[6]
中国疾病预防控制中心新型冠状病毒肺炎应急响应机制重点场所防护与消毒技术组. 新型冠状病毒肺炎流行期间方舱医院卫生防护指南[J]. 中华预防医学杂志, 2020, 54(4): 357-359.
Protection and Disinfection Technology Group of Key Sites for New Coronavirus Pneumonia Emergency Response Mechanism of Chinese Center for Disease Control and Prevention. Health protection guideline of mobile cabin hospitals during novel coronavirus pneumonia (NPC) outbreak[J]. Chin J Prev Med, 2020, 54(4): 357-359. DOI:10.3760/cma.j.cn112150-20200217-00121
[7]
国家卫生健康委办公厅.关于印发新型冠状病毒肺炎诊疗方案(试行第六版)的通知[EB/OL]. (2020-02-18)[2020-03-29].http://www.nhc.gov.cn/yzygj/s7653p/202002/8334a8326dd94d329df351d7da8aefc2.shtml.
General Office of the National Health Commission. Notice on printing and distributing the new coronary virus pneumonia diagnosis and treatment plan (Trial Version 6).[EB/OL]. (2020-02-18)[2020-03-29]. http://www.nhc.gov.cn/yzygj/s7653p/202002/8334a8326dd94d329df351d7da8aefc2.shtml.
[8]
Yang Y, Lu Q, Liu M, et al. Epidemiological and clinical features of the 2019 novel coronavirus outbreak in China[J/OL]. medRxiv, 2020. DOI: https://doi.org/10.1101/2020.02.10.20021675.
[9]
Chen T, Li X, Li Y, et al. Prediction and risk stratification of kidney outcomes in IgA nephropathy[J]. Am J Kidney Dis, 2019, 74(3): 300-309. DOI:10.1053/j.ajkd.2019.02.016
[10]
Maeta K, Nishiyama Y, Fujibayashi K, et al. Prediction of glucose metabolism disorder risk using a machine learning algorithm:pilot study[J]. JMIR Diabetes, 2018, 3(4): e10212. DOI:10.2196/10216
[11]
黄美琼, 张广清, 葛晶晶, 等. 感染性疾病患儿血清降钙素原、CRP及WBC的变化及临床意义[J]. 国际检验医学杂志, 2015, 36(12): 1670-1671.
Huang MQ, Zhang GQ, Ge JJ, et al. Clinical significance of serum levels of procalcitonin, C-reactive protein and white blood cell count in children with infectious diseases[J]. Internat J Lab Med, 2015, 36(12): 1670-1671. DOI:10.3969/j.issn.1673-4130.2015.12.013
[12]
Frohlich S, Boylan J, McLoughlin P. Hypoxia-induced inflammation in the lung:a potential therapeutic target in acute lung injury?[J]. Am J Respir Cell Mol Biol, 2013, 48(3): 271-279. DOI:10.1165/rcmb.2012-0137TR
[13]
Dyer C. The interaction of ageing and lung disease[J]. Chron Respir Dis, 2012, 9(1): 63-67. DOI:10.1177/1479972311433766
[14]
Ogunleye AA, Qing-Guo W. XGBoost Model for Chronic Kidney Disease Diagnosis[J/OL]. IEEE/ACM Trans Comput Biol Bioinform, 2019. DOI: 10.1109/TCBB.2019.2911071.Onlineaheadofprint.