2. 中国人民解放军联勤保障部队第九四〇医院, 兰州 730030
2. No. 940 Hospital of Joint Logistics Support Force of PLA, Lanzhou 730030, Gansu, China
创伤重症是指患者受伤后并由此引发的一系列危及生命的急重综合征,包括失血性休克、开放性气胸、脏器破裂等[1]。据报道,2020年我国因道路交通事故导致的死亡人数达6万余人[2],美国每年有超过6万例患者死于创伤失血性休克,而全球范围则超过了150万例[3],可以说创伤及其引起的重症并发症已经成为意外死亡的重要原因之一。创伤重症具有转归复杂、进展急骤等特点,因此在对创伤重症患者救治的临床实践中,救治团队的处置经验和临床判断对抢救成功与否尤为重要[4]。充分利用创伤重症抢救的数据,开发一个可以对创伤重症患者病程进展和临床结局进行实时预测的动态预测模型用以辅助医疗决策,对挽救伤员生命具有重要意义。
循环神经网络(recurrent neural network,RNN)算法是目前较为成熟的动态预测模型之一。RNN在各领域有着广泛的应用,如自然语言处理、股价波动等动态时序预测[5],其模型性能也充分接受了行业实践的检验[6]。本研究以RNN及其衍生算法为基础,构建基于真实创伤重症病例的动态预测模型,对患者的临床结局进行实时预测,分析探讨基于RNN算法的动态预测模型在创伤重症患者临床辅助决策中的应用价值。
1 资料和方法 1.1 数据资料与病例筛选 1.1.1 数据来源美国重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC)成立于2003年,是一个受美国国立卫生研究院资助的单中心、长周期、大样本且免费开放的公共数据库[7]。目前第四版数据库MIMIC-Ⅳ中共收录了超过19万例患者的临床数据及超过45万例次的住院信息。本研究数据来源于MIMIC-Ⅳ 2.0。本研究已获得该数据库的使用权限(用于非商业用途的科学研究)。
1.1.2 研究资料(1)入选伤情:以国际疾病分类(ICD-10)编码筛选MIMIC-Ⅳ数据库中入院诊断为交通事故伤、撞击伤、锐器伤、火器伤和烧伤等且进入ICU的患者(入院时间2010-2019年)。
(2)采集特征:包括性别、人种、年龄、身高、体重、心率、呼吸频率、体温、收缩压、舒张压、血红蛋白、白细胞计数、血小板计数、丙氨酸转氨酶、天冬氨酸转氨酶、总胆红素、血肌酐、血尿素氮、氧分压、二氧化碳分压和血氧饱和度等共21个变量。
(3)结局变量:临床结局(死亡与否)、结局发生时间。
(4)纳入标准:年龄>16岁;筛选数据范围为患者进入ICU前1 d至结局事件出现或进入ICU后7 d内。
(5)排除标准:结局变量记录不全;总缺失数据高于25%;单一基线变量数据缺失高于10%。
(6)缺失处理:循环节点前后6 h内有数据反馈采用就近填补方式;否则采用线性均值填补方式。
1.2 预测策略与评价标准 1.2.1 特征重要性分析在训练RNN动态预测模型之前,需考虑纳入模型训练的分析变量选取问题。为提升动态模型预测效能,尽可能降低无关变量对模型造成噪声干扰,以最大限度地保留变量在模型训练中的真实贡献,同时也为降低模型训练难度、节约时间成本,本研究使用3种不同的机器学习方法对基线变量的特征重要性指数进行计算。首先,每种机器学习方法计算5次特征重要性指数,并以这5次的算术平均数作为该算法下的最终特征重要性指数;其次,计算3种机器学习算法得到的平均特征重要性指数的组内相关系数(intraclass correlation coefficient,ICC),用以评估不同算法下特征重要性的一致性,并将不同算法获得的特征重要性指数再次进行平均,最终得到汇总的特征重要性指数;最后,将各变量汇总的特征重要性指数进行排序,并以此顺序作为分析变量选择的重要依据。
考虑到分析变量间可能存在的内生性和共线性问题,在对变量进行特征重要性排序后,通过咨询临床专家(5名来自不同三甲医院具有副高及以上职称的急诊或重症医学科临床医师)并结合过往类似研究中的有关结论和策略,从特征重要性指数较高且共线性较低的基线变量中选择若干适宜变量,作为分析变量用于动态预测模型的训练。
1.2.2 基于RNN算法的动态预测模型搭建RNN算法及其衍生算法由若干基本循环单元组成。其中,RNN的基本循环单元主要包括输入层(x)、隐藏层(s)、输出层(y)、激活函数(f、g)和权重矩阵(U、V、W)等组件[8]。各循环单元按时间顺序展开,通过纳入不同时间节点的分析数据,达到使用时间序列数据进行动态预测的效果。然而,基础RNN算法由于基本循环单元内部设计简单,在预测复杂、长时程的事件时会出现“长程依赖”问题[9-10]。为了克服上述问题,通过精细循环单元结构、增加必要的单元组件等方式形成了以长短时记忆(long short-term memory,LSTM)算法和门控循环单元(gated recurrent unit,GRU)算法为代表的RNN衍生算法。本研究分别使用LSTM算法和GRU算法搭建动态预测模型[11]。为强化RNN动态预测模型在每个循环节点间的时间关联性,本研究在各循环节点建模并在预测结束后将模型参数传递到下一节点,使得下一节点的模型在训练时都会以上一节点参数为“蓝本”继续优化。这种参数“继承”的建模方案将有利于提升RNN算法动态模型的预测效能,节约模型训练时间[12]。
本研究以进入ICU后4 h为起始循环节点,在每个循环节点均训练1个RNN(LSTM或GRU)动态预测模型,训练完毕后将参数传递至下一节点,节点间隔2 h,最长使用进入ICU后168 h的临床数据。在每个循环节点用以训练模型的时间序列数据跨度分别为4、6、8 h(即时间窗为4、6、8 h)。本研究将前文所述筛选纳入的病例样本通过9∶1的比例随机划分为训练集和测试集,其中训练集数据用于在每个循环节点训练模型(建模过程使用5折交叉验证策略,即各模型均需要完整迭代5次),每次训练时均须将队列脱落样本从训练集剔除。
1.2.3 模型评价指标和模型评价测试集数据用于模型评价。模型在每个循环节点的预测目标均为患者的院内临床结局。模型在每个循环节点预测完毕后,针对患者临床结局预测的正误情况,分别计算该节点下预测模型的灵敏度、特异度、F1值和ROC AUC值[13-14]等性能评价指标。最后,连续记录各个节点下预测模型的4个性能评价指标,并分析各指标的总体差异和时间趋势一致性。本研究的试验路径如图 1所示。
本研究还将分别训练隐马尔科夫模型(hidden Markov model,HMM)[15]、随机森林模型(random forest,RF)[16]和logistic模型3种不同算法模型作为对照,用以分析RNN算法模型与其他预测模型的性能差异。其中,HMM模型同样为动态模型,训练策略和训练数据同LSTM和GRU算法模型;RF和logistic模型为常用的静态模型,两者仅训练1次,训练数据为进入ICU后的首次在院数据。
1.3 统计学处理所有深度学习算法和数据统计分析均使用Python 3.6.0软件的PyTorch、scikit-learn、HMMlearn和statsmodels等程序包完成。计算变量特征重要性指数的方法为极端梯度提升算法(extreme gradient boosting,XGBoost)、自适应提升算法(adaptive boosting,AdaBoost)和RF等3种机器学习算法[17-18]。计数资料以例数和百分数表示,组间比较采用χ2检验;计量资料以x±s表示,两组间比较采用独立样本t检验,多组间差异性检验使用单因素方差分析。灵敏度、特异度、F1值和AUC值等指标的模型间评价使用析因设计的方差分析(包括主效应和交互效应)。纳入变量的特征重要性和模型评价指标在不同算法模型间的一致性评价指标采用ICC(计算模式包括双向混合、一致性、单一度量)[19]。所有检验均为双侧检验,检验水准(α)为0.05。
2 结果 2.1 创伤重症患者基本情况按照病例筛选标准,共1 783例创伤重症患者入组,死亡病例262例(14.69%),未死亡病例1 521例(85.31%),平均入住ICU时间为(162.096±55.268)h,中位入住ICU时间为166.917 h,最长入住ICU时间为358.320 h。入选病例的其他基线特征如表 1所示。将1 783例样本按照9∶1的比例随机划分为训练集和测试集,最终训练集样本共1 604例,其中死亡病例235例(13.18%);测试集样本共179例,其中死亡病例27例(1.51%)。
2.2 模型分析变量选择
使用XGBoost、AdaBoost和RF算法对进入ICU后的首次在院数据进行建模并输出各自模型的特征重要性指数,每种算法计算5次特征重要性指数后汇总平均数,其中排在前6位的变量分别是血红蛋白、收缩压、舒张压、年龄、心率和氧分压(表 2)。这3种机器学习算法得到的特征重要性指数的ICC为0.909。在综合了机器分析、相关研究文献及专家评估等多种建议后,将年龄、心率、收缩压、血红蛋白、总胆红素、血肌酐和氧分压等7个变量作为训练动态模型的分析变量。
2.3 模型预测性能
在时间窗分别为4、6、8 h时使用LSTM和GRU算法训练的动态模型预测临床结局(死亡与否)的灵敏度、特异度、F1值和AUC值见表 3。在8 h时间窗下,LSTM和GRU模型各节点的平均特异度分别为0.912±0.025和0.910±0.034,平均灵敏度分别为0.814±0.044和0.813±0.026。而时间窗口为6 h和4 h时2种算法模型的预测性能均不及时间窗口为8 h时。
RNN算法模型的4个性能指标的全因子差异性分析结果见表 4。在不同时间窗时,RNN算法模型预测临床结局的灵敏度、特异度、F1值和AUC值差异均有统计学意义(均P<0.001);在不同RNN算法(LSTM和GRU)间仅特异度差异有统计学意义(P=0.036),而灵敏度、F1值和AUC值在不同RNN算法间及全部4个性能指标的算法与时间窗交互作用均无统计学意义(均P>0.05)。
基于2种RNN算法训练的预测模型在8 h时间窗时的性能表现见表 5。基于LSTM、GRU、HMM、RF和logistic算法的预测模型在各节点的平均AUC值分别为0.826±0.034、0.825±0.037、0.742±0.015、0.707±0.019和0.644±0.033。各模型的灵敏度、特异度、F1值和AUC值差异均有统计学意义(均P<0.001),其中基于LSTM、GRU和HMM算法的动态预测模型的各性能指标均高于RF和logistic模型,且基于logistic算法的预测模型各性能指标在5种预测模型均最低。在一致性方面,5种预测模型在灵敏度、特异度、F1值方面的ICC分别为0.262、0.244、0.395,而AUC值的ICC仅0.002。各算法模型性能指标的时间趋势变化见图 2。
3 讨论
本研究提出了基于RNN算法对创伤重症患者转归进行实时预测的动态模型,2种RNN算法模型的平均AUC值最高可到0.826±0.034(8 h时间窗),而最低也在0.752±0.035(4 h时间窗),而灵敏度和特异度最低为0.742±0.028和0.841±0.020,说明本研究提出的动态模型具有较好的预测效果。
本研究结果显示,各模型在8 h时间窗口下的预测性能指标均相对优于6 h和4 h,6 h和4 h时各项指标性能分别约为8 h时的95%和92%,说明时间窗长度可能会对RNN动态模型的预测性能造成影响,可能原因是时间窗的增长令模型在每个循环节点上所使用的时间序列数据更多,捕捉时间连续变化信息也更准确[20]。此外,尽管本研究中不同RNN算法(LSTM和GRU)模型的性能指标中仅特异度差异有统计学意义(P=0.036),但有报道指出LSTM算法相较于GRU算法内部更精密(参数更多),在大数据长时程的预测场景中LSTM算法的预测准确性可能高于GRU算法,但LSTM算法所需要调用的计算资源和时间成本明显高于GRU算法[21]。有研究报道,在同等条件下GRU算法的训练收敛时间和单次遍历时间都明显小于LSTM算法[22],相比之下GRU算法对于硬件条件有限的环境更加友好。
在对不同算法模型的横向比较中,基于LSTM、GRU和HMM算法的动态预测模型的各项性能指标均高于RF和logistic模型,这表明动态预测策略较静态预测策略或许更具优势。LSTM、GRU和HMM算法可以使用时间序列数据进行预测,RF和logistic模型仅能分析横截面数据,而时间序列数据显然比横截面数据能更加全面、详实地反映疾病情况。同为动态模型的RNN和HMM算法,前者的预测性能优于后者。就AUC值而言,LSTM和GRU算法较HMM算法总体提升了约11%;其他性能指标同样显著提升。这一结果表明,在相同的动态策略加持下,RNN算法本身的复杂而精密优势得以体现。有研究表明,HMM算法内部是线性连接,故其对于非线性变化的拟合明显弱于RNN算法[23]。
本研究中,灵敏度、特异度和F1值在各模型间的一致性均较小(ICC<0.400),而AUC值一致性在统计学上证据不足(95% CI包含0),说明各算法模型性能随时间推移其变化波动分歧较为明显。从各算法模型性能指标的时间趋势图可见,LSTM、GRU和HMM算法模型的灵敏度、特异度和F1值时间推移呈上升趋势,而RF和logistic模型则未见这一现象,这表明动态预测模型或许可以更有效地利用分析变量在时间层面上的连续性,对于病情发展的拟合较静态模型亦或更为精准。值得一提的是,随着循环的进行不断有样本从队列脱落(死亡或好转),尤其是在后期节点样本量明显下降,而RNN动态模型的预测性能依旧可以保持相对稳定,本研究认为循环节点间模型训练的参数“继承”策略或许在其中发挥了一定作用[12]。
本研究对于变量筛选的原则是特征重要性尽量高,但相关性尽量小,其目的是保留特征贡献的同时抑制模型的内生性和共线性。从这个角度出发,本研究选择分析变量时并未完全依据特征重要性指数排序,而是采纳了部分文献报道和专家建议。本研究在征求临床专家有关分析变量建议时,反馈的结果认为失血性休克及多器官功能衰竭是造成创伤患者死亡的关键因素之一,而部分研究报道[24-25]也支持了该观点,故采纳的分析变量多与人体主要脏器功能关联紧密。从预测结果的角度看,本研究RNN算法模型采用年龄、心率、收缩压、血红蛋白、总胆红素、血肌酐和氧分压等7个分析变量,达到了良好的预测效果,说明本研究采用的分析变量组合是合理且可被接受的。
从PubMed和中国知网检索到在近10年(2013-2022年)公开报道的各类创伤重症相关预测研究有3万余篇,但是,由于不同研究之间在包括策略架构、模型算法、样本量、预测结局、评价指标等在内的诸多因素差异较大,研究和研究之间、模型和模型之间可比性并不高。必须承认的是,本研究所训练的RNN模型F1值并不理想,各节点平均F1值最高也仅为0.552±0.053(8 h时间窗)。但笔者认为本研究中RNN模型F1值较低主要是由正负例样本不均衡造成的。从所采集的数据可以发现,本研究中死亡与非死亡病例比例仅为1∶5.805,这会使被错误分类的负例样本(非死亡病例)极大地干扰F1值,因此可以认为F1值较低并不能说明RNN模型的性能不理想,还需要结合更大样本的数据进行全面评价。有报道指出,在错分代价较为敏感的应用场景,AUC值对于模型性能评价可能更具优势[26];另有研究认为当模型的AUC值达到0.8以上时,其已可接受为较为理想的分类器模型[27]。
本研究存在一定局限性。首先,本研究使用的样本数据略显不足,且为单中心数据;其次,RNN模型的可解释性欠缺,后期可考虑通过引入局部可解释的模型无关解释算法(local interpretable model-agnostic explanations)[28]或注意力机制[29]等方法尝试弥补该缺失。
综上所述,本研究在创伤重症背景下成功搭建了基于RNN算法的动态预测模型并将其应用于创伤重症患者的临床结局预测,初步论证了该动态预测模型搭建方案的可行性和实现路径,可为继续开展RNN模型临床应用研究提供参考。
[1] |
刘国辉. 重症创伤患者的一体化救治模式[J]. 中华急诊医学杂志, 2013, 22(6): 569-570. DOI:10.3760/cma.j.issn.1671-0282.2013.06.003 |
[2] |
田振中, 孙振雷. 我国道路交通事故死亡人数影响因素及管理对策研究[J]. 中国人民公安大学学报(自然科学版), 2022, 28(2): 38-44. DOI:10.3969/j.issn.1007-1784.2022.02.006 |
[3] |
张思森, 岳茂兴, 王立祥. 创伤性休克急救复苏新技术临床应用中国专家共识(2019)[J]. 中华卫生应急电子杂志, 2019, 5(1): 1-6. DOI:10.3877/cma.j.issn.2095-9133.2019.01.001 |
[4] |
陈逍堃, 林维成, 张鹏, 等. 创伤急救体系的发展与现状[J]. 北京大学学报(医学版), 2017, 49(2): 368-371. DOI:10.3969/j.issn.1671-167X.2017.02.034 |
[5] |
BARAK O. Recurrent neural networks as versatile tools of neuroscience research[J]. Curr Opin Neurobiol, 2017, 46: 1-6. DOI:10.1016/j.conb.2017.06.003 |
[6] |
KRIEGESKORTE N, GOLAN T. Neural network models and deep learning[J]. Curr Biol, 2019, 29(7): R231-R236. DOI:10.1016/j.cub.2019.02.034 |
[7] |
张家艳, 郑建立, 郑西川, 等. MIMIC数据库智能挖掘研究概述[J]. 计算机技术与发展, 2020, 30(1): 144-148. DOI:10.3969/j.issn.1673-629X.2020.01.026 |
[8] |
胡中源, 薛羽, 查加杰. 演化循环神经网络研究综述[J]. 计算机科学, 2023, 50(3): 254-265. DOI:10.11896/jsjkx.220600007 |
[9] |
KWON B C, CHOI M J, KIM J T, et al. RetainVis: visual analytics with interpretable and interactive recurrent neural networks on electronic medical records[J]. IEEE Trans Vis Comput Graph, 2018, 299-309. DOI:10.1109/TVCG.2018.2865027 |
[10] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Comput, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
[11] |
GRAVES A, FERNÁNDEZ S, SCHMIDHUBER J. Bidirectional LSTM networks for improved phoneme classification and recognition[M]//Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2005: 799-804. DOI: 10.1007/11550907_126.
|
[12] |
YU Z, SHEN D, JIN Z, et al. Progressive transfer learning[J]. IEEE Trans Image Process, 2022, 31: 1340-1348. DOI:10.1109/TIP.2022.3141258 |
[13] |
王成, 刘亚峰, 王新成, 等. 分类器的分类性能评价指标[J]. 电子设计工程, 2011, 19(8): 13-15, 21. DOI:10.3969/j.issn.1674-6236.2011.08.004 |
[14] |
刘伟平, 黄晨浩. 基于AUC的支持向量机分类方法及应用研究[J]. 湖南城市学院学报(自然科学版), 2023, 32(6): 69-73. DOI:10.3969/j.issn.1672-7304.2023.06.0012 |
[15] |
RESÉNDIZ ROJAS M, FONTECAVE-JALLON J, RIVET B. Hidden Markov model in nonnegative matrix factorization for fetal heart rate estimation using physiological priors[J]. Physiol Meas, 2022, 43(10). DOI:10.1088/1361-6579/ac92bf |
[16] |
董红瑶, 王弈丹, 李丽红. 随机森林优化算法综述[J]. 信息与电脑, 2021, 33(17): 34-37. DOI:10.3969/j.issn.1003-9767.2021.17.011 |
[17] |
齐巧娜, 刘艳, 陈霁晖, 等. 机器学习XGBoost算法在医学领域的应用研究进展[J]. 分子影像学杂志, 2021, 44(5): 856-862. DOI:10.12122/j.issn.1674-4500.2021.05.25 |
[18] |
徐洪学, 孙万有, 杜英魁, 等. 机器学习经典算法及其应用研究综述[J]. 电脑知识与技术, 2020, 16(33): 17-19. |
[19] |
余红梅, 罗艳虹, 萨建, 等. 组内相关系数及其软件实现[J]. 中国卫生统计, 2011, 28(5): 497-500. DOI:10.3969/j.issn.1002-3674.2011.05.006 |
[20] |
MAJUMDAR A, GUPTA M. Recurrent transform learning[J]. Neural Netw, 2019, 118: 271-279. DOI:10.1016/j.neunet.2019.07.003 |
[21] |
邱锡鹏. 神经网络与深度学习[M]. 北京: 机械工业出版社, 2020: 141-144.
|
[22] |
CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. 2014: arXiv: 1412.3555(2014-12-11)[2024-03-21]. http://arxiv.org/abs/1412.3555.
|
[23] |
YU S Z. Explicit duration recurrent networks[J]. IEEE Trans Neural Netw Learn Syst, 2022, 33(7): 3120-3130. DOI:10.1109/TNNLS.2021.3051019 |
[24] |
陈静清, 周练兴, 卢善儒, 等. 68例急诊创伤死亡病例分析及临床意义研究[J]. 现代诊断与治疗, 2014, 25(20): 4778-4779. |
[25] |
王占科, 胡新勇, 柴长春, 等. 357例创伤死亡患者空腹血糖与多器官功能不全综合征相关分析[J]. 现代诊断与治疗, 2005, 16(2): 72-74. DOI:10.3969/j.issn.1001-8174.2005.02.004 |
[26] |
汪云云, 陈松灿. 基于AUC的分类器评价和设计综述[J]. 模式识别与人工智能, 2011, 24(1): 64-71. DOI:10.3969/j.issn.1003-6059.2011.01.008 |
[27] |
HAND D J, TILL R J. A simple generalisation of the area under the ROC curve for multiple class classification problems[J]. Mach Learn, 2001, 45(2): 171-186. DOI:10.1023/A:1010920819831 |
[28] |
林志萍, 杨立洪. 基于LIME的改进机器学习可解释性方法[J]. 数据挖掘, 2021, 11(2): 38-49. DOI:10.12677/HJDM.2021.112005 |
[29] |
朱张莉, 饶元, 吴渊, 等. 注意力机制在深度学习中的研究进展[J]. 中文信息学报, 2019, 33(6): 1-11. DOI:10.3969/j.issn.1003-0077.2019.06.001 |