反向传播的多层前馈神经网络和多元回归对合理住院费用预测效能的比较

引用本文

许思特, 张天天, 盛韬, 等. 反向传播的多层前馈神经网络和多元回归对合理住院费用预测效能的比较[J]. 中国卫生资源, 2021, 24(5): 525-528, 537. DOI: 10.13688/j.cnki.chr.2021.210156

作者简介

许思特, 硕士生, 主要从事医疗信息化和数据挖掘研究, stxu18@fudan.edu.cn

通信作者

罗力, liluo@fudan.edu.cn

文章历史

收稿日期：2021-01-31
修订日期：2021-04-17

目录 摘要 全文 图/表 PDF

反向传播的多层前馈神经网络和多元回归对合理住院费用预测效能的比较

许思特 ^1,2, 张天天 ¹, 盛韬 ³, 刘佳兴 ⁴, 罗力 ¹

1. 复旦大学公共卫生学院, 上海 200032;
2. 上海交通大学医学院附属瑞金医院, 上海 200020;
3. 复旦大学计算机科学技术学院, 上海 200041;
4. 复旦大学软件学院, 上海 200082

收稿日期：2021-01-31；修改日期：2021-04-17

作者简介：许思特, 硕士生, 主要从事医疗信息化和数据挖掘研究, stxu18@fudan.edu.cn.

通信作者：罗力, liluo@fudan.edu.cn.

摘要：目的应用两种机器学习算法预测护理院合理住院费用，比较预测效能，辅助医疗保险监管住院费用。方法基于上海市2016—2018年病案首页数据库，选取护理院脑梗死后遗症相关数据给临床医生进行人工标记，应用多元回归和反向传播的多层前馈神经网络对标记为合理的数据建模，构建合理费用预测模型，并比较模型的预测效能。结果两种算法在训练集和测试集上均有较好的预测效能，训练集结果略优于测试集，反向传播的多层前馈神经网络的预测效能优于多元回归。其中，多元回归模型在测试集的决定系数（R²）为0.3，多层前馈神经网络模型在测试集的决定系数（R²）为0.4。结论两种机器学习算法能较好地预测护理院合理住院费用；相较多元回归，反向传播的多层前馈神经网络有更好的预测效能。可用于相关医疗保险控费管理者的决策参考，从而达到引导医疗行为、提升医疗保险基金使用效率的效果。

关键词：多元回归反向传播的多层前馈神经网络护理院住院费用监管脑梗死后遗症

Keywords: multivariable regression back propagation neural network nursing home hospitalization expense supervision sequelae of cerebral infarction

随着我国医疗保险（以下简称“医保”）覆盖面的扩大和保障水平的提高，违规骗保、过度诊疗、资源浪费等问题愈演愈烈，致使基金增长速度过快。与此同时，根据国家进一步促进社会办医持续健康规范发展的要求，医保将面临越来越多的社会办医纳保的局面，更加大了医保基金的风险和监管压力。

以华东某市为例，该市现有超过40家专科护理院，但对其相关住院费用的监管却没有成型标准，仅采用一刀切的监管方法，即床日均费不得超过400元。根据《国务院办公厅关于推进医疗保障基金监管制度体系改革的指导意见》（国办发〔2020〕20号），结合这项研究对医保管理部门的咨询结果，为有利事前、事中的监管引导，应对相关医疗机构的费用加强大数据应用，制定“模糊规则”进行监管。

现应用两种机器学习算法分别构建模型，预测护理院合理住院费用，并比较预测效能，从而辅助医保控费管理者对住院费用进行监管控制，为人工智能技术在医保控费监管中的实际应用打下基础，为医保控费管理者提供可行路径与可用方法。

1 资料与方法 1.1 资料来源

在上海市医疗保险事务管理中心提供的2016—2018年上海市病案首页数据库中，选择以脑梗死后遗症[国际疾病分类（international classification of diseases, ICD）-10编码为I69.300]为主疾病的病例资料，收集患者信息字段与费用字段，包括年龄、住院天数、住院次数、有无手术、并发症详情等；统计患者各单项住院费用字段，包括一般医疗服务费、一般治疗操作费、西药费、护理费等。

1.2 数据预处理

（1）剔除年龄、主疾病等关键患者信息字段有缺失的数据。

（2）剔除费用字段缺失超过1/3的数据，用中位数填补费用字段缺失不超过1/3的数据。

（3）患者住院费用属于偏态分布，因而对数据进行box-cox变换，使其近似正态分布。继而对数据进行归一化，使其收敛于[0, 1]。

（4）运用独热编码与哑变量处理分类型的信息特征字段，如性别、医疗付费方式等。其中，由于“新农合”“城镇职工”“其他”3种付费方式，在病案首页数据库中均记录为“医保”，因而未做进一步分类。

（5）运用二值化与分段处理连续型的信息特征字段，如年龄等。

变量赋值及预处理详见表 1。

表 1 变量赋值及预处理

1.3 建模方法 1.3.1 抽样与标记

由于受相关资质医生的数量限制，现以系统抽样为基础，借鉴梯度下降法的逻辑，进行抽样标记。按主疾病分别抽取样本记录，以均数为中心点，由欧氏距离最远处开始以学习率α（即步长）逼近中心点，并由医生判断是否合理。每条数据由多位专家判断。学习率α视判断一致率情况进行调整，离中心点较近相较远处，α更大。

共抽样18 697条数据，有效回收15 488条，回收率82.8%。其中，经数据预处理，脑梗死后遗症疾病相关数据共2 352条，合理数据共1 743条。

从全市邀请了204位从医满5年的护理院临床医生参与大型的线上专家咨询。对抽样的18 697条病案数据进行第一轮合理性判断，并利用费用字段构建初步模型。所有相关资质医生会基于自身经验在阅读完整病案信息的情况下进行费用量和费用构成的合理性判断。若一条数据被医生判断为“费用量合理”且“费用构成合理”，则认为该条数据合理；若一条数据被医生判断为“费用量不合理”或“费用构成不合理”，则认为该条数据不合理。

1.3.2 预测模型构建

基于回收的有效合理数据，分别应用多元回归和反向传播的多层前馈神经网络（back propagation neural network）（以下简称“BP神经网络”），以费用字段作为标签，构建合理费用预测模型。对两种建模方法的有效性进行比较，通过均方误差、决定系数等进行比较评价，并给出特征重要程度。

线性回归是机器学习中最简单的回归算法。多元回归指的就是一个样本有多个特征的线性回归问题。BP神经网络是深度学习的基础，它是受到人类大脑结构启发而诞生的一种算法。它按照误差逆向传播算法训练，试图模拟生物神经系统的学习过程，以此实现强大的预测性能。

1.3.3 统计学分析

采用Scikit-learn、Pytorch库实现相关机器学习算法的编写，Numpy库进行维度数组与矩阵运算，Pandas库进行数据分析与处理，Matplotlib库进行图表绘制及可视化。所有统计学分析均运用Python语言实现。

对于模型的预测效能，研究从是否预测到正确的数值以及是否拟合到足够的信息这两方面进行评估。分别采用均方误差（mean squared error，MSE）评估模型预测的准确性，采用决定系数（R²）、可解释性方差分数(explained variance score, EVS)评估是否拟合了足够的信息。

2 结果 2.1 基本情况

经人工标记与数据预处理，脑梗死后遗症疾病相关2 352条病案首页数据：男性1 027例，占43.7%；女性1 325例，占56.3%。患者平均年龄（82.65±8.61）岁。其中：年龄 < 40岁组0人；40~ < 60岁组39人，占1.7%；60~ < 80岁组573人，占24.4%；80~ < 100岁组1 731人，占73.6%；≥100岁组9人，占0.4%。患者实际住院天数最短1 d，最长1 151 d，平均实际住院天数（148.05±143）d。其中：≤9 d组167人，占7.1%；10~49 d组347人，占14.8%；50~99 d组523人，占22.2%；100~199 d组859人，占36.5%；200~299 d组219人，占9.3%；≥300 d组237人，占10.1%。

2.2 住院费用基本情况

护理院脑梗死后遗症患者住院总费用最低162.5元，最高361 936.8元，住院总费用中位数为38 453.36元。从患者住院费用构成比来看，在人均住院费用中，康复费、治疗费、西药费占比较高。

护理院脑梗死后遗症患者住院日均费用最低54.2元，最高2 095.2元，住院日均费用中位数为356.9元。患者住院费用构成情况见表 2。

表 2 患者住院费用构成

2.3 医生判断结果与二轮验证结果

考虑医生人数及工作量，抽取800条数据进行医生判断一致性检验，每条数据由3位医生判断。共反馈回有效数据696条，合理性判断一致率为68.5%。

进行费用合理性综合判断的脑梗死后遗症数据共计2 352条。其中：被标记为不合理的609条，总费用最小值240.4元，最大值282 703.2元，住院总费用中位数为40 499.6元；被标记为合理的1 743条，总费用最小值162.5元，最大值361 936.8元，住院总费用中位数为38 090.7元。

考虑医生人数及工作量，为验证模型的可推广性，随机抽取500条数据，分别进行人工和机器的二轮判断。邀请5位未参与第一轮标记的临床医生进行人工判别，另用主动学习后的机器学习模型进行机器判别，将两者的判别结果进行比对。500条数据中，420条数据判别结果一致，一致率达84.0%。

2.4 模型效能

对多元回归模型进行效能评价，分别以“日均费用”以及其他单项费用作为预测项标签进行建模。以均方误差评价模型的预测效能，以决定系数、可解释性方差分数评价模型的拟合效能。结果见表 3。

表 3 多元回归模型各标签预测效能

模型的相关系数R > 0.5，即决定系数R² > 0.3时，模型才有意义。由表 3可知，在现有数据情况下，多元回归模型只对“日均费用”能起到较好的预测作用。以“日均费用”为预测项标签，多元回归模型各参数详情见表 4。

表 4 多元回归模型各参数详情

对BP神经网络模型进行效能评价，分别以“日均费用”以及其他单项费用作为预测项标签进行建模。以均方误差评价模型的预测效能，以决定系数评价模型的拟合效能。结果见表 5。

表 5 反向传播的多层前馈神经网络模型各标签预测效能

模型的相关系数R > 0.5，即决定系数R² > 0.3时，模型才有意义。由表 5可知，除了“日均费用”，BP神经网络模型同时也对“诊断费用”“治疗费”“康复费”能起到较好的预测作用。

以传统监管标准，护理院住院床日均费用不得超过400元/d。但经过专家标记与模型反馈结果，有大量日均费用超过400元/d的数据被专家与模型同时标记为合理，可见机器学习算法比传统一刀切的方法更能辨别相关费用的合理性，也更具指导参考价值。比较两种机器学习模型，BP神经网络在预测效能与拟合效能上，皆优于多元回归模型。

2.5 特征重要程度

使用训练集进行计算，通过设置各种算法的最优参数，得到每种算法训练10次后变量的平均重要性。

多元回归的特征量重要性用回归系数来衡量，BP神经网络使用模型变量的总体加权与系数矩阵来衡量。多元回归模型特征重要程度：医疗付费方式为0.40，并发症数量、出院情况、住院天数为0.20，年龄、出院科别为0.07，住院次数、入院科别为0.06，入院病情为0.02，转科科别、有无手术为0。BP神经网络模型特征重要程度：出院科别为0.21，入院科别为0.20，出院情况为0.12，医疗付费方式、住院天数为0.09，入院病情为0.07，住院次数、转科科别为0.06，年龄为0.05，并发症数量为0.04，有无手术为0。由于“有无手术”相关数据本身极端，99%以上为“无手术”，因而出现在两种模型中的特征重要程度均为0的情况。

3 讨论 3.1 模型特点

目前，国内对相关住院费用的监管还缺少有效手段和成型标准。根据文献研究进展与实际管理情况，主要存在以下问题。

3.1.1 机器建模问题

参考相关文献，考虑将人工智能技术引入，在以往的住院费用研究中，大多已采用了非监督学习等无须人工标记的方法。但是，这些方法并未对住院费用数据中合理与不合理的数据进行区分，而是以“大部分数据是合理数据”的前提开展研究，这负面影响了机器学习的学习效果。

3.1.2 审核监管问题

受限于管理者的临床专业知识与人力成本，对相关住院费用的监管始终没有成型的标准，在具体审核过程中仍用一刀切的监管方法。这种传统监管方法不仅不利于事前、事中的引导，同时也使部分有违规收费倾向的医生掌握主动权，采取规避处罚的诊疗方向。

对此，针对机器建模的问题，研究将专家专业能力与机器处理能力相结合，在有资质医生对住院费用数据进行合理性判断的前提下，以其中的合理数据作为基础，采用机器学习算法构建合理住院费用预测模型，并比较模型效能。而针对现有审核监管标准中一刀切的问题，将病案首页中完整的患者基本信息囊括，综合考虑有效数据特征，搭建用于合理住院费用预测的机器学习模型，提供更符合实际情况的合理费用参考。

研究发现，机器学习算法结合专家经验的方法，能对合理住院费用进行有效预测。BP神经网络与多元回归算法相比，在预测效能上更优。

3.2 完善方向及推广

近20年来，国内外都有大量学者将数据挖掘、机器学习等应用于医保费用监管、住院费用分析以及骗保行为甄别等。如：Biafore^[1]使用数据挖掘技术从大量的复杂的异构数据中发现一定的数据模式及趋势，并以此提供决策支持；Jothi等^[2]将数据挖掘技术应用到医疗费用检测，并给出成功实施的案例；Rudman等^[3]通过归纳了美国健康保险利用机器学习与数据挖掘的相关技术构建模型对欺诈与骗保行为进行甄别并对其进行分析；高臻耀等^[4]提出利用数据挖掘与机器学习等技术构建模型库与方法库；蓝英^[5]将机器学习、神经网络应用于多种疾病的住院费用分析中。因而，后续完善除了考虑从费用角度出发外，还可考虑对医生诊疗行为进行探索归纳。

算法方面，理论上，分类模型已有经典结论，证明如果想要构建一个强壮的机器学习模型，同时需要较大的数据量和特征量^[6]。

根据这项研究的结果，BP神经网络拥有更好的预测效能。在BP神经网络的基础上，后续可进行算法的进一步优化。比如：在数据级技术可采用包括随机过采样（random oversampling, ROS）、随机欠采样（random undersampling, RUS）和两者相结合的ROS-RUS等；评估的算法级技术可采用包括代价敏感损失函数，焦点损失和平均误报损失等^[7]。

模型完善可考虑以下几点：①细化病案首页信息特征，适量增加特征数量；②不断收集病案首页数据，增加模型数据量；③通过模型判别-医院解释-医保评判-数据反馈的完整系统，形成良性反馈；④聚焦医生诊疗行为，进行相关归纳及探索，并纳入预测模型的特征中；⑤对相关机器学习算法进行优化。

此外，后续研究也可针对BP神经网络模型等算法可解释性较差等问题进行完善。建模中可采用机器学习中可解释性较强的决策树模型，有效反馈特征重要程度、机器决策路径等关键信息。针对建模与管理中人工标记的成本问题，可采用主动学习算法，甄别较难分类的高价值标注数据，并重点标记，从而通过较少成本提升算法的效果。

这项研究显示，对于护理院脑梗死后遗症疾病，上述方法学可有效预测合理住院费用。经尝试，该套方法学也可应用于其他疾病合理住院费用的预测和监管，并可进一步推广至基层医疗机构或二、三级医院。这项研究的方法也为行政部门制定适合脑梗死后遗症等疾病按诊断相关分组预付费方式、降低医疗费用提供参考，有助于医保服务质量与管理效率，遏制医保基金的不合理消耗，使得医保、医疗机构、患者各方效益最大化。

·作者声明本文无实际或潜在的利益冲突

参考文献

[1]	BIAFORE S. Predictive solutions bring more power to decision makers[J]. Health Manag Technol, 1999, 20(10): 12-14.
[2]	JOTHI N, HUSAIN W. Data mining in healthcare: a review[J]. Procedia Comput Sci, 2015, 72: 306-313. DOI:10.1016/j.procs.2015.12.145
[3]	RUDMAN W J, EBERHARDT II J S, PIERCE W, et al. Healthcare Fraud and Abuse[J]. Perspect Health Inf Manag, 2009, 6(Fall): 111-112.
[4]	高臻耀, 张敬谊, 林志杰, 等. 一个医保基金风险防控平台中的数据挖掘技术[J]. 计算机应用与软件, 2011, 28(8): 120-122. DOI:10.3969/j.issn.1000-386X.2011.08.035
[5]	蓝英. 多种统计模型在糖尿病患者住院费用影响因素研究中的运用[J]. 经济师, 2019(6): 243-244. DOI:10.3969/j.issn.1004-4914.2019.06.128
[6]	STEPHAN S R. The nature of statistical learning theory[J]. IEEE Trans Neural Netw, 1997, 8(6): 1564. DOI:10.1109/TNN.1997.641482
[7]	JOHNSON J M, KHOSHGOFTAAR T M. Medicare fraud detection using neural networks[J]. J Big Data, 2019, 6(1): 63. DOI:10.1186/s40537-019-0225-0