神经网络模型建立及在医院感染病例预警中应用

引用本文

周欣彤, 于晓松. 神经网络模型建立及在医院感染病例预警中应用[J]. 中国公共卫生, 2019, 35(4): 445-450.

ZHOU Xin-tong, YU Xiao-song. Application of neural network model in early warning of nosocomial infection[J]. Chinese Journal of Public Health, 2019, 35(4): 445-450.

神经网络模型建立及在医院感染病例预警中应用

周欣彤¹, 于晓松²

1. 沈阳市第四人民医院院感科，沈阳 110031;
2. 中国医科大学中国医科大学附属第一医院全科医学科

收稿日期: 2018-12-07; 数字出版日期: 2019-03-15 11:42:00

基金项目: 沈阳市科技计划项目（17 – 230 – 9 – 55）；沈阳市卫生和计划生育委员会科技奖励项目

作者简介: 周欣彤（1990 – ），女，辽宁沈阳人，公共卫生执业医师，硕士，主要研究方向：医院感染管理。

通讯作者: 于晓松，E-mail: 2865762948@qq.com

摘要：目的为解决医院感染病例“上报难”问题，初步建立神经网络模型在医院感染病例预警中的应用。方法通过神经网络与决策树分类器相结合，2017年3月1 — 31日通过对某三甲医院特定时间内抽取的4 911例感染病例的信息进行分析，得到一个由训练过后神经网络生成的规则算法，再由该方法对另一个时段内患者信息进行预测，并将预测结果与实际结果进行对比，以寻求一种针对医院感染信息系统最佳的数据分析核心算法。结果在模型的拟合程度上，classification tree模型优于neural network模型，同时2者大大优于logistics模型；在预测结果的精准度上，classification tree模型亦优于logistics模型；将coarsetree和neuralnet模型的结果进行交叉互补时，可明显减少假阴性病例数。结论神经网络与决策树分类器相结合对结果预测的精准性远远高于传统的logistic模型。

关键词：神经网络决策树分类器医院感染病例预警

Application of neural network model in early warning of nosocomial infection

ZHOU Xin-tong, YU Xiao-song

Department of Nosocomial Infection Control, Shenyang Fourth People's Hospital, Shenyang, Liaoning Province 110031, China

Abstract: Objective To explore the application of neural network model (NNM) in early warning of nosocomial infection (NI) for effective control of NI. Methods We extrated data on 4 911 inpatients with infections (139 NI and 4 776 non-NI) in a terciary grade A hospital during March 2017. A algorithm formula was established using NNM combined with decision tree classifier after training based on the data collected. Then the established algorithm formula was atopted to predicate the occurence of infection inpatients in the hospital in a specific duration and compared the predictions to those of actual occurences to develop an optimal core algorithm for analysis of data from hospital infection information system. Results For the models established, the fitting of classification tree was better than that of NNM and both the fitting of classification tree and NNM were vastly superior to that of logistic model. The predictive accuracy of classification tree model was better than that of logisitics model. The number of false negative prediction was obviously decreased with cross-complementing of coarsetree model and neuralnet model. Conclusion In predication of NI occurence, the predictive accuracy of neural network model combined with classification tree model is obviously hgither than taht of conventional logistics model.

Key words: neural network decision tree classifier nosocomial infection case warning

医院感染是指住院病人在医院内获得的感染，包括在住院期间发生的感染和在医院内获得出院后发生的感染等^[1]。为防止医院感染爆发造成大范围不良事件，降低在院患者因医院感染造成的额外疾病负担和经济负担，预防医院感染的发生，医院院感科需要对医院感染病例进行实时的监控，并对发生医院感染的患者进行及时的干预，而这些都建立在医院感染病例能够及时、准确上报的基础上。但是，绝大多数感染科专职人员短缺是目前国内医疗机构较为常见的现象^{[2 – 5]}，神经网络模型（neural network model）是一种较为先进和高级的数学模型，与普通院感管理软件相比，神经网络具有其特殊的优势。目前，尚无将神经网络模型应用于医院感染管理工作中的研究。本研究2017年3月1 — 31日基于某三甲医院内病例数据，通过神经网络与决策树分类器相结合的方式，对特定时段院内患者信息进行分析，试图建立一个专门用于感染病例上报的神经网络模型，以提高医院感染病例上报率和上报质量，简化院感工作流程和提升工作效率，为医院感染管理提供可行性措施。

1 材料与方法 1.1 数据库的生成 1.1.1 条件参数的选择原则

根据我国《医院感染诊断标准》中关于医院感染诊断相关的重点信息要求，并参照《医院感染监测基本数据集及质量控制指标集实施指南（2016版）》中所包含的基本数据集，结合本院现有系统和临床实际，选取本研究的各项条件参数。

1.1.2 训练用数据集

提取出院日期为2017年3月1 — 31日的4 911例住院患者信息，其中包括医院感染病例135例，非医院感染病例4 776例。每例样本提取317列条件参数包括：病历号1列、医院感染信息2列、患者基本信息4列、微生物检验信息30列、药敏试验结果100列、生化检验结果150列和诊断信息30列，共计317列，形成4 911 × 317的数据库总表。在数据库总表内，从4 776例非医院感染病例中，随机抽取2 600例，剔除过于离散、数据信息不良的病例，最终得到一个2 556 × 317的非医院感染数据集。在数据库总表内，将135例医院感染病例全部复制20次，得到2 700例医院感染病例，最终得到一个2 700 × 317的医院感染数据集。将非医院感染数据集与医院感染数据集合并，得到一个5 256 × 317的训练用数据集。

1.1.3 测试用数据集

提取出院日期为2017年4月1 — 7日的1 047例住院患者信息，其中包括医院感染病例28例，非医院感染病例1 019例。每例样本提取317列条件参数包括：病历号1列、医院感染信息2列、患者基本信息4列、微生物检验信息30列、药敏试验结果100列、生化检验结果150列和诊断信息30列，共计317列，形成1 047 × 317的测试用数据集。

1.1.4 MATLAB用数据矩阵

将训练用数据集中的医院感染信息（2列）单独提取出来，生成训练用目标矩阵marchtraintarget.mat（5 256 × 2），将除病历号、医院感染信息外的其他信息提取出来，生成训练用输入矩阵marchtraininput.mat（5 256 × 314）；同样将测试用数据集中的医院感染信息（2列）单独提取出来，生成测试用目标矩阵apriltesttarget.mat（1 047 × 2），将除病历号、医院感染信息外的其他信息提取出来，生成测试用输入矩阵apriltestinput.mat（1 047 × 314）。另将marchtraininput.mat的全部信息与marchtraintarget.mat中的第1列信息合并，生成专为MATLAB Classification Linear APP使用的训练用数据矩阵marchtrainlogistic.mat（5 256 × 315）。

1.1.5 数据代换和归一化

将训练用数据集和测试用数据集中，非数值类型的条件参数值代换为数值型。将代换好的数据集在MATLAB中用mapminmax函数进行统一的归一化处理。本研究中全部的训练矩阵和测试矩阵均在同一mapminmax函数相应的规则（PS）下进行归一化处理。

1.2 模型的建立

本研究中模型的建立全部在MATLAB2017b下完成，数据的辅助整理在Excel 2007下完成。

2 结　果 2.1 模型结果对比（表1、图1）

表 1 不同模型结果参数对比

图 1 neuralnet模型ROC结果

通过表1和图1发现finetree模型的假阴性数最少（0），假阳性数最小（117），拟合精度最高，曲线下面积最大（0.98），因此，为最优模型；medium tree的假阴性数为116，假阳性数为353，拟合精度和曲线下面积（0.94）等仅次于finetree，为第2优的模型；neuralnet假阴性数380，假阳性数373，曲线下面积略逊于medium tree，为第3优模型；logistic模型的各方面参数都相对较低。以上结果说明了在模型的拟合程度上，classification tree模型优于neural network模型，同时2者大大优于logistics模型。

2.2 模型预测结果对比（表2、3，图2）

表 2 不同模型预测值与真值的比对（前30个病例）

序号	病历号	Ylogistic	Yfinetree	Ymediumtree	Ycoarsetree4	Ycoarsetree	Yneuralnet	取整值	Ytarget
1	634 639	0	0	0	0	0	0.190 606 108	0	0
2	641 698	0	0	0	0	0	0.154 298 939	0	1
3	641 542	1	0	0	0	0	0.068 270 377	0	0
4	642 270	0	0	0	0	0	0.070 430 73	0	0
5	642 088	0	0	0	0	0	0.048 455 584	0	0
6	642 199	0	0	0	0	0	0.264 460 446	0	0
7	640 886	0	0	0	0	0	0.067 308 176	0	0
8	641 145	1	0	0	0	0	0.293 744 437	0	0
9	641 356	1	0	0	1	1	0.840 448 849	1	0
10	642 188	1	0	0	0	0	0.054 391 735	0	0
11	590 265	1	0	0	0	0	0.123 965 352	0	0
12	641 758	0	0	0	0	0	0.076 690 334	0	0
13	641 754	0	0	0	0	0	0.132 561 257	0	0
14	642 205	0	0	0	0	0	0.349 082 243	0	0
15	642 271	0	0	0	0	0	0.112 416 835	0	0
16	633 835	0	0	0	0	0	0.226 980 997	0	0
17	640 192	0	0	0	1	1	0.746 497 289	1	1
18	641 059	0	0	0	1	1	0.918 385 422	1	0
19	641 108	0	0	0	0	0	0.151 264 265	0	0
20	641 112	0	0	0	0	0	0.157 648 322	0	0
21	641 136	1	0	0	0	0	0.327 817 04	0	0
22	641 215	1	0	0	0	0	0.113 235 662	0	0
23	641 218	1	0	0	1	1	0.419 385 261	0	0
24	641 225	0	0	0	0	0	0.324 999 477	0	0
25	641 226	1	0	0	1	1	0.416 320 61	0	0
26	641 258	0	0	0	0	0	0.267 896 038	0	0
27	641 343	0	0	0	0	0	0.199 033 797	0	0
28	641 384	0	0	0	0	0	0.270 074 822	0	0
29	641 420	1	0	0	1	1	0.376 373 995	0	0
30	641 425	1	0	0	1	1	0.580 672 076	1	0

表 2 不同模型预测值与真值的比对（前30个病例）

表 3 不同模型预测结果对比

图 2 不同模型test ROC结果

从表2可以看出Yneuralnet在计算后是一个多位小数的数值，对比时对其进行取整，生成Yneuralnet取整值；并且对于在计算后显示为“NAN”的无信息反馈数据，按系统给定的预测结果计入。从表3和图2可以看出：在预测方面假阴性数最少的模型为coarsetree和neuralnet，假阴性数均为10，但neuralnet的假阳性数要少于coarsetree（234<295），曲线下面积neuralnet也要略高于coarsetree，说明在预测时，neural network模型的预测准确度是最高的，classification tree模型次之，logistics模型仍然最劣。此外finetree和mediumtree的假阴性数最多（25, 22），曲线下面积（图2B和C）也不理想，与预测精准度（94.5 %，92.6 %）和模型拟合程度所表现出来的高度精准相差甚大。

2.3 综合考虑classification tree和neural network 的交互结果（表4）

表 4 各个模型预测值中的假阴性病例

序号	病历号	Ylogistic	Yfinetree	Ymediumtree	Ycoarsetree4	Ycoarsetree	Yneuralnet	Ytarget
1	641 698	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
2	640 192	假阴性	假阴性	假阴性	正确	正确	正确	1
3	590 864	正确	假阴性	假阴性	正确	正确	假阴性	1
4	505 827	正确	假阴性	正确	正确	正确	正确	1
5	509 645	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
6	641 406	正确	假阴性	假阴性	假阴性	假阴性	假阴性	1
7	641 075	正确	假阴性	假阴性	假阴性	假阴性	正确	1
8	641 577	正确	假阴性	假阴性	正确	正确	正确	1
9	519 715	假阴性	假阴性	假阴性	正确	正确	正确	1
10	375 228	假阴性	假阴性	正确	正确	正确	正确	1
11	606 009	正确	正确	假阴性	假阴性	假阴性	正确	1
12	510 105	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
13	500 870	假阴性	假阴性	假阴性	正确	正确	正确	1
14	640 804	正确	假阴性	假阴性	正确	正确	假阴性	1
15	641 571	假阴性	假阴性	假阴性	正确	正确	正确	1
16	503 178	假阴性	假阴性	假阴性	假阴性	正确	正确	1
17	502 854	正确	假阴性	正确	正确	正确	正确	1
18	642 090	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
19	513 876	正确	假阴性	假阴性	假阴性	正确	正确	1
20	623 757	正确	假阴性	假阴性	假阴性	假阴性	假阴性	1
21	642 406	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
22	641 299	假阴性	假阴性	假阴性	正确	正确	正确	1
23	641 465	正确	假阴性	假阴性	正确	正确	正确	1
24	590 621	假阴性	假阴性	假阴性	假阴性	假阴性	假阴性	1
25	373 608	假阴性	假阴性	假阴性	正确	正确	正确	1
26	514 406	正确	假阴性	正确	正确	正确	正确	1
假阴性数合计		12	25	22	12	10	10

表 4 各个模型预测值中的假阴性病例

从表4可以看到测试集1 047个病例中共有医院感染病例28例，其中26例在不同的模型中显示为假阴性（漏报）。统计各个模型的假阴性病例对比结果为：logistic模型12例，finetree模型25例，mediumtree模型22例，coarsetree4模型12例，coarsetree模型10例，neuralnet模型10例，如将coarsetree和neuralnet模型的结果进行交叉互补，则可将假阴性病例数下降至8例，为最优。在各个模型下预测均为假阴性的病例共有6例。

3 讨　论

本院现有系统的预警核心算法模型是基于logistics回归的模型，其预测准确度不甚理想，与逻辑分析结果基本一致，分析原因可能是logistics回归要求数据必须经过变量变换^{[6 – 7]}，而在实际工作中想要将全部的变量变换完成是不可能。因此，本研究试图通过建立一个神经网络模型，并尝试将其应用于某三甲医院感染病例预警工作中。经网络在本研究中模型的拟合精确度中虽然不是最优，但到最终测试结果的准确程度尤其是假阴性（漏报）病例的预测上表现最好，假阳性（增加人工工作）表现最优。从拟合的精确度和预测的准确度来看，neuralnet模型表现十分平庸，但在假阴性数（漏报）和假阳性数（增加人工工作）有着其他模型所不具备的优势^{[8 – 13]}。也就是说，neuralnet模型以最少的人工工作获得了最优的预测结果。本研究虽然采用了317列条件因素，包含了住院病历号、医院感染信息、患者基本信息、微生物检验信息、药敏试验结果、生化检验结果和诊断信息等能够代表患者状态的大项信息，但对于样本患者来说，代表性仍未达到完全。例如：研究数据库未包含影像和病理检查结果信息。因为，影像和病理检查结果多为手工录入，个体之间差异较大，且本院并未对这2者的结果录入进行量化处理，因此本次研究并未收入影像和病理检查结果。另外，本研究中没有收入体温信息，原因是在选取相关体温数据时发现当月的临床体温录入质量不良，追问结果为由于后续临床护理系统大范围升级，导致很大一部分体温信息在2次提取时丢失，强行收入当月体温信息对于神经网络等模型的建立干扰较大，故本次没有收入，也是本次研究的最大遗憾。

本研究在数据选取方面，如生化检验结果提取了150列，并不是说全部入库的样本都包含完整的150个生化检验结果，而是说在某个样本已有的生化检验结果中，取150个结果归入这个样本，并将这个样本导入模型进行运算。如果样本在被导入运算时并没有生成150个生化检验结果，那么不足的部分用数值“– 100”填补（为避免与具有实际意义的“0”值等发生混淆及干扰，故特此用了这样一个在临床上不具备生化意义的值进行填补）。这样就不会因为新入院患者产生的数据信息不足而影响预测，理论上即使某个患者仅生成了“住院病历号”这1项数据，也可以导入模型进行运算，并且得到结果。所需要限定的仅仅是每一个大项的列数，比如本研究中生化检验这个大项包含150列，也可以扩充为500列或缩减为100列，具体可根据实际情况调整。又比如本研究中基本信息这个大项并没有包括“性别”“年龄”这样的常用参数，也可根据实际情况进行增减。

总之，通过实际应用，神经网络的训练具有自主更新和自主迭代的特性，也就是说可以随时随着数据库的变化而变化^{[14 – 20]}。对于日常的医院感染上报工作，在高精度的预测模型下，终于可以做到“托管”，也就是：可以信赖系统预警的结果，接受系统预警的病例，忽略系统未预警的病例，并做出针对性回应。而基于高精度的数据库所产生的包括国家要求在内的院感管理相关的数据^[21]，也终于可以按时生成，且生成结果真实、准确、有效。对于医院感染管理相关政策的制定，由于有了高精度数据库和有效分析结果的支持，完全可以做到“有的放矢”^{[22 – 25]}。例如：对于本研究中显示的“住院天数超过10 d的患者更易发生医院感染”这一现象，可以制定限制住院天数的政策，对于住院天数超过15 d的患者则可根据具体的分析结果制定有针对性的政策，而不是千篇一律的“加强消毒隔离，加强个人防护，加强手卫生，降低感染风险”这样口号性质大于实际意义的措施。此外，由于有了明确的分析因素，在进行管理干预的前后还可以进行院感病例发生率的对比，已获得真实的数据层面的管理效果反馈。

决策树分类器是本研究中另外一个亮点，采用MATLAB2017b的Classification Linear APP下的All Trees工具，生成fine tree，medium tree和coarse tree三种决策树，根据3种决策树预测结果的优劣，进行选择性优化，并得到最终优化结果coarsetree模型。在与真值比对的过程中，将neuralnet的假阴性结果与coarsetree的假阴性结果进行交互，可以继续减少2例假阴性（漏报）病例，同时假阳性（增加人工工作）病例仅仅是稍微增加，这样用两个模型的结果进行交互，可以得到更准确的预测结果。如果用传统的logistic模型进行交互：在降低假阴性数的同时，增加的假阳性数过多。因此，神经网络与决策树分类器相结合对结果预测的精准性远远高于logistic模型。通过以上分析，从理论层面、实验结果及实际数据监测等多方面分析了院感病例管理系统在预警与分析方面应用的核心算法模型的最佳方案：运用神经网络模型完成院感病例的预警预测，运用决策树分类器对易感因素等关键控制点进行针对性管理。本研究为医院数据上报的智能化管理提供了实验数据。

参考文献

[1]	王力红, 朱士俊.医院感染学[M].北京: 人民卫生出版社.2014: 886 – 900.
[2]	徐显荔, 杨文, 王定媚, 等. 某地区基层医疗机构医院感染管理现状[J]. 中国感染控制杂志, 2017(10): 971–972. DOI:10.3969/j.issn.1671-9638.2017.10.019
[3]	李卫光, 朱其凤, 秦成勇, 等. 山东省医院感染管理部门设置现状调查[J]. 中华医院感染学杂志, 2011(12): 2526–2528.
[4]	牟霞, 徐艳, 杨锦玲, 等. 贵州省医院感染管理部门设置现状调查分析[J]. 中华医院感染学杂志, 2013(14): 3465–3466, 3469.
[5]	吴明, 靳桂明, 魏华. 医院感染管理部门应强化职能作用[J]. 中华医院感染学杂志, 2007(11): 1408–1410. DOI:10.3321/j.issn:1005-4529.2007.11.032
[6]	张文彤, 董伟. 高等学校教材·SPSS统计分析高级教程(第2版)[M].北京:高等教育出版社出版社, 2013:162-180.
[7]	王小川, 史峰, 等.MATLAB神经网络43个案例分析[M].北京: 北京航空航天大学出版社.2013: 212-220, 231-242.
[8]	Kanimozhi CS, Anju P. Possibilistic LVQ neural network-an application to childhood autism grading[J]. Neural Network World, 2016, 26(3): 253–269.
[9]	Bascil MS, Tesneli AY, Temurtas F. Spectral feature extraction of EEG signals and pattern recognition during mental tasks of 2-D cursor movements for BCI using SVM and ANN[J]. Australasian Physical and Engineering Sciences in Medicine September, 2016, 39(3): 665–676. DOI:10.1007/s13246-016-0462-x
[10]	Lanzarini LC, Villa Monte A, Bariviera AF, et al. Simplifying credit scoring rules using LVQ + PSO[J]. Kybernetes, 2017, 46(1): 8–16. DOI:10.1108/K-06-2016-0158
[11]	Podržaj P, Čebular A. The application of LVQ neural network for weld strength evaluation of RF-welded plastic materials[J]. IEEE/ASME Transactions on Mechatronics, 2016, 21(2): 1063–1071. DOI:10.1109/TMECH.2015.2498278
[12]	Sun TH, Tien FC, Tien FC, et al. Automated thermal fuse inspection using machine vision and artificial neural networks[J]. Journal of Intelligent Manufacturing, 2016, 27(3): 639–651. DOI:10.1007/s10845-014-0902-y
[13]	Zhang Z, Ming WY, Zhang GJ, et al. A new method for on-line monitoring discharge pulse in WEDM-MS proces[J]. The International Journal of Advanced Manufacturing Technology, 2015, 81(5-8): 1403–1418. DOI:10.1007/s00170-015-7261-5
[14]	罗建春, 晁勤, 罗洪, 等. 基于LVQ — GA-BP神经网络光伏电站出力短期预测[J]. 电力系统保护与控制, 2014, 42(13): 89–94.
[15]	崔明, 乔兰, 李远, 等. LVQ神经网络在探地雷达成果解译中的应用[J]. 现代隧道技术, 2013, 50(6): 19–23. DOI:10.3969/j.issn.1009-6582.2013.06.004
[16]	叶晓波, 王松. 贝叶斯分类与LVQ神经网络分类性能对比研究[J]. 电脑与信息技术, 2013, 21(4): 14–17. DOI:10.3969/j.issn.1005-1228.2013.04.004
[17]	周云龙, 李红延, 李洪伟. 改进的LVQ神经网络在风机故障诊断中的应用[J]. 化工自动化及仪表, 2013, 40(5): 610–615. DOI:10.3969/j.issn.1000-3932.2013.05.012
[18]	丁硕, 常晓恒, 巫庆辉, 等. 基于LVQ神经网络风电机组齿轮箱故障诊断研究[J]. 现代电子技术, 2014, 37(10): 150–152. DOI:10.3969/j.issn.1004-373X.2014.10.043
[19]	律方成, 张波. LVQ神经网络在GIS局部放电类型识别中的应用[J]. 电测与仪表, 2014, 51(18): 112–115. DOI:10.3969/j.issn.1001-1390.2014.18.023
[20]	赵学观, 王秀, 李翠玲, 等. 基于主成分分析及LVQ神经网络的番茄种子品种识别[J]. 浙江农业学报, 2017, 29(8): 1375–1383. DOI:10.3969/j.issn.1004-1524.2017.08.20
[21]	牟霞, 徐艳, 张骥, 等. 依托信息化进行医院感染现患率调查[J]. 中华医院感染学杂志, 2014, 24(19): 4887–4889.
[22]	李毅志, 邓银川, 代剑. 医院感染实时监控系统在质量改进中的应用[J]. 医疗卫生装备, 2015, 36(10): 122–124.
[23]	钟山. 医院感染信息预警监测系统的设计与应用[J]. 中华医学图书情报杂志, 2015, 24(7): 15–18. DOI:10.3969/j.issn.1671-3982.2015.07.004
[24]	万艳春, 李玉. 医院感染管理信息系统的开发与应用[J]. 中国卫生质量管理, 2015, 22(2): 70–72.
[25]	刘卫方. 基于医院数据平台的院感监测系统的构建与应用[J]. 江西通信科技, 2015(1): 38–43. DOI:10.3969/j.issn.1009-0940.2015.01.011


中国公共卫生 2019, Vol. 35 Issue (4): 445-450	PDF