中国卫生资源  2022, Vol. 25 Issue (5): 577-580, 587  DOI: 10.13688/j.cnki.chr.2022.211490

引用本文  

庞振陆, 袁依, 崔庆霞, 等. 医院季度收入预测的比较研究[J]. 中国卫生资源, 2022, 25(5): 577-580, 587. DOI: 10.13688/j.cnki.chr.2022.211490

作者简介

庞振陆,硕士生,主要从事流行病学与卫生统计研究,2066243522@qq.com

通信作者

李望晨,lwch.ppt@163.com

文章历史

收稿日期:2021-12-30
修订日期:2022-04-27
医院季度收入预测的比较研究
庞振陆 , 袁依 , 崔庆霞 , 马桂峰 , 李望晨     
潍坊医学院公共卫生学院,山东 潍坊 261053
摘要目的 探讨具有季度波动和长期趋势特征事物预测问题的方法论, 为卫生领域同类预测问题提供定量决策方法论依据。方法 以某所医院季度收入预测作为实证算例载体, 分别用乘积季节SARIMA法、X11-ARIMA法、X11-曲线函数外推法建立简单组合模型以及二次加权组合模型。结果 乘积季节SARIMA模型、X11-ARIMA模型、X11-二次多项式的平均相对误差分别为1.28%、0.96%、1.11%。对以上简单组合模型继续进行深度加权组合, 预测误差为0.70%, 模型预测性能更优。结论 SARIMA模型、X11-ARIMA模型、X11-二次多项式以及二次组合模型对于局部周期性波动、全局稳定性趋势的时序数据资料拟合效果不错; 对于卫生管理领域预测问题有适用性, 鉴于多种匹配方法原理不同、信息利用差异大, 基于多种方法的二次组合模型取得更优性能。
关键词医院收入    简单模型    二次加权组合模型    预测    比较    
Keywords: revenue of hospital    simple model    quadratic weighted combination model    prediction    comparative    

为了解资源配置状况,卫生管理工作者常要收集定量资料并借助定量分析技术为定性分析提供辅助参考,医院收入演化规律分析和预测研究有助于提供综合决策依据。鉴于错综复杂或难以量化因素的影响,可以收集既往时序资料本身的变化规律,由时间序列模型分析并外推未来。从方法学的角度,不同技术原理和数据利用特点有差异。对于短期相关和随机波动时序资料,适于简单ARIMA法拟合[1]。对于随着时间延续有平滑趋势特点的事物,适于曲线拟合法外推。对于随季度、月度有周期性波动规律特点的事物,适于X-11法或序列差分法提取周期信息。由于卫生管理专业人员在数理统计知识滞后和学科跨度上的不对称性,以往应用研究多是侧重简单方法的工具性套用为主,忽视了从方法优选改进、优化搭配和组合使用视角进行更深入的探索。

对于卫生资源领域具有局部周期性、全局单调趋势性变化特点事物的时序数据,有些研究者曾经尝试从多种方法优选互补、多角度引入适配方法并设计了组合模型[2-5],在减少误差和提高预测性能方面取得某些成果,但是在基于单项组合模型的二次组合模型优化设计方法和性能改进方面缺乏深入探索。在以上问题背景下,将医院收入资料作为实证载体,鉴于数据变化周期性或趋势性规律稳定,受随机无序变动影响少,由统计建模方法提取信息获得较高预测精度。另一个目的是强调方法论通用意义,对于诊疗人次、门诊费用等事物预测提供借鉴,促进卫生管理工作中定量技术的引进意识。下面考虑引入多种可行方法设计简单组合模型,进行理论分析和实际验证。在探索简单组合模型的基础上,建立对于历史资料拟合更好且外推预测精度更优的二次加权组合模型,从选择、设计、实证和总结等方面为卫生领域类似预测问题提供参考。

1 资料与方法

以某医院按季度收集的一段时期资料作为案例,优选适合的时间序列分析方法并建立预测模型,提取局部周期性波动和全局稳定趋势变化规律性信息,由多种方法建立适配的预测模型,先由SARIMA法[6]、X11-ARIMA法[7]、X11-曲线拟合法建立单项组合预测模型,然后进一步设计二次加权组合模型,验证对于案例数据变化拟合预测的适用性,讨论对于医疗卫生领域同类时序变化特征事物预测的方法借鉴意义。

1.1 数据资料

资料来自某医院2007—2019年按季度收集的收入数据(表 1)。数据真实且不便于公开地址,这些时序数据资料着重于强调在同类数据变化特征事物预测方法论探索中起到载体作用,对于收集、清洗、预处理以及描述性分析工作不再赘述。

表 1 2007—2019年某医院按季度收入 
1.2 建模方法

将2007—2017年数据用于建立模型或作为训练集,将2018和2019年数据用于验证模型或作为测试集。在SAS 9.4环境下分别建立SARIMA模型和X11-ARIMA模型。对于提取季节指数以后的长期变化趋势数据,由SPSS 21.0软件建立以时序为自变量的曲线回归分析模型,即联合使用ARIMA模型和曲线拟合法。采用Excel 2016软件对不同模型的拟合结果和误差情况进行深度加权组合。根据历史和拟合数据以散点图演示对照, 以平均相对误差作为模型外推预测精度的评估指标。

1.2.1 X11-ARIMA模型

基本思想是由X11法提取原始序列中的周期性波动变化信息,然后对经过季节调整以后的长期趋势序列建立ARIMA模型,经过时间序列资料拟合以后进行外推预测。实际上,在X11-ARIMA模型中的X-11法与SARIMA模型中的季节差分法虽然原理不同,但是提取季节信息的做法类似。前者方法是把原始序列中的变动分成趋势循环、季节变动、不规则变动和周工作日变动等部分。虽然算法很复杂,但是利用SAS软件中成熟的程序可以迅速实现预处理过程。后者方法是利用随机时间序列分析中经典而且成熟的方法,例如通过指定周期差分提取月度性或季度性信息。

1.2.2 SARIMA模型

乘积季节ARIMA模型简记为SARIMA(p, d, q)×(P, D, QS模型,其中pq为自回归和移动平均的阶数,d为平稳化预处理以后的差分阶数;PQ为季节性自回归和移动平均的阶数,D为季节差分预处理时的阶数,S为季节差分的步长。由ARIMA法建立模型时需要考虑平稳性检验。求自相关系数、偏自相关系数,由其拖尾或截尾性质进行模型定阶。由最小二乘法或最大似然法估计模型参数并作参数显著性检验。由模型拟合值和实际值计算残差序列并验证是否属于白噪声序列。建立模型并根据历史资料拟合值和真实值的差异计算相对误差,验证模型拟合效果或预测精度。

1.2.3 X11-曲线拟合模型

在流行病学问题中的很多事物例如痢疾、手足口病发病率,演化趋势有季节周期性,经过信息提取以后的数据资料有很强的随机波动性,长期趋势不太凸显,SARIMA预测方法的应用有代表性。实际上,卫生经济学事物往往有明显的季节变动规律,长期来看具有类似于某种平滑曲线趋势特点的变化规律。以上收集的医院收入季度数据资料经过周期性季节指数提取以后,发现有平滑曲线趋势变化特点,可以选择某种曲线拟合法,建立模型并对长期趋势外推后,追加乘以季节指数并将其还原为预测结果。如果剔除季节信息以后仍然有随机无序变化特点,那么还可使用ARIMA模型。

医院收入数据受稳定但极其复杂因素的综合影响而表现出大致长期趋势变化的特点,可以考虑对长期趋势使用曲线拟合法以后进行外推,鉴于无法直观看出二次多项式、三次多项式、修正指数曲线还是其他类型的曲线,可以尝试使用差分预处理以后再根据曲线差分性质和数据差分特征比较匹配特点进一步优选。不妨根据散点图变化特点和简单曲线进一步直观比较,由决定系数R2等指标优选最佳曲线,由模型对2018年和2019年全新数据资料进行趋势外推以后,分别乘以4个季度的季节指数,还原为2018年和2019年真实预测结果, 同时验证拟合或外推精度。

1.2.4 二次组合模型

由于不同时间序列分析法原理和数据规律性信息利用特点不同,虽然对于同样问题都具有很好的建模适用意义,但是难以相互替代或优选。例如, 对于长期趋势规律适应性好的模型,曲线拟合法和ARIMA法原理不同,对于数据资料个数要求不一样,但是都有非常不错的拟合效果和外推预测精度。如果将这些无法唯一择优的模型进行简单组合设计,对其优点兼收并蓄,往往会取得比每个单项模型更优的拟合效果。所谓二次组合设计途径就是求真实值和拟合值的相对误差,利用残差平方和的倒数作为权重,将多个简单组合方法继续二次组合。

首先分别使用SARIMA法、X11-ARIMA法、X11-曲线拟合法,建立针对医院季度收入数据的多种预测模型。然后使用残差平方和倒数法, 分别由上述多种模型计算历史资料的残差平方和取倒数经过归一化预处理后计算单项模型的权重。一方面,由单项模型对历史资料拟合后乘以权重,由组合后的拟合值与真实值计算相对误差并绘图比较;另一方面将单项模型外推预测值乘以权重以后,根据预测值与真实值计算出相对误差,由实证资料验证组合模型的拟合与外推效果。

2 结果 2.1 数据特征

2007—2019年医院季度收入数据随着时间延续,表现出以季节为周期的短期波动特点,剔除周期性信息以后的数据资料表现出与某种类型平滑曲线非常类似的长期递增趋势规律特点。

2.2 SARIMA模型实现 2.2.1 平稳性检验

对原始数据资料进行4步差分以后提取季节波动信息,然后采用1阶或2阶以上的差分运算进一步提取趋势信息,差分运算不能过度适用,否则会损失原始数据的规律性,使拟合效果变得更差。经分析,经过1阶差分后的数据资料无趋势特点,差分后数据围绕水平直线随机波动,满足了建模平稳性要求。

2.2.2 模型定阶

由模型平稳性检验过程确定参数d=1,d=1,s=4。继续观察自相关系数和偏自相关系数的拖尾或截尾性质,初步确定模型参数为p=0,q=1;由某些数据资料分析可知,当把阶数PQ限定在2阶以内时更好,尝试对PQ分别取值0、1、2,经过模型拟合以后选择最佳模型。经反复筛选调整后,初步确定了模型结构为SARIMA(0, 1, 1)(0, 1, 0)4

2.2.3 参数估计与假设检验

SARIMA(0, 1, 1)(0, 1, 0)4模型参数检验有统计学意义,相伴概率P(0.009) < 0.05。纯随机性检验说明残差序列短期没有相关性,认为已经是白噪声序列,当延迟阶数为6、12、18和24时,相伴概率P值依次为0.982、0.861、0.956和0.920。残差序列的自相关系数和偏自相关系数取值均落在2倍标准差范围内,认为该模型对于季节变化信息和长期趋势信息提取比较充分。SARIMA(0, 1, 1)(0, 1, 0)4模型表达式为(1− 0.40 968B)(1−B4)(1−B4)(1−Bхt=Ԑt。式中,B为延迟算子,Ԑt为随机误差。

由SARIMA(0, 1, 1)(0, 1, 0)4模型对2018和2019年医院季度收入数据外推预测以后,结果依次为3 080、3 525、3 734、4 902和3 302、3 747、3 956、5 124,与真实值比较以后得到平均相对误差为1.28%,说明精度很高。

2.3 X11-ARIMA模型建模 2.3.1 周期性季节信息的提取

由X11法相应的SAS 9.4程序提取季节指数,分别为81.43%、93.19%、97.16%、128.22%。经过季节指数调整的数据资料有长期递增趋势。由ARIMA模型提取短期相关性信息后,剩余序列具有不规则波动特点,说明对于规律性信息提取充分。

2.3.2 ARIMA模型

(1)平稳性检验。经过季节调整数据进行2阶差分后,发现剩余数据无长期趋势特征。纯序列随机性检验,统计量χ2=33.05,相伴概率P < 0.001,认为经过2阶差分后序列为平稳非白噪声序列,由模型分析其短期相关性。(2)模型定阶。根据赤池信息准则(Akaike information criterion, AIC)最小准则,由自相关图自相关系数2阶截尾、偏自相关图偏自相关系数拖尾性质,初步确认用模型结构MA(2)。(3)参数估计与模型检验。经分析,MA(2)模型参数估计值为1.088 82和-0.350 34,相伴概率P值为小于0.001和0.024,有统计学意义。对残差序列进行纯随机性检验,当延迟6、12、18和24阶时,相伴概率P值为0.494、0.874、0.974和0.814均大于0.05,说明残差序列无短期相关性,即残差为白噪声序列,模型对信息提取充分、拟合效果好。ARIMA模型表达式为(1−B2хt=(1−1.088 82B+0.350 34B2Ԑt

ARIMA模型对剔除季节信息以后的数据外推预测,得到预测值3 703、3 752、3 800、3 849和3 897、3 946、3 995、4 043,分别将其乘以季节指数以后,还原为2018和2019年医院季度收入的预测值依次为3 015、3 496、3 692、4 935和3 173、3 677、3 881、5 183,平均相对误差为0.96%,预测效果不错。

2.4 X11-曲线拟合模型建模

经过X11法提取季节指数以后,对长期趋势序列建立二次多项式曲线模型表达式为хt=2 757.081−8.82t+0.674t2。其中,t为时间,хt为医院收入。经分析,决定系数R2=0.980,说明拟合效果好。经过多元回归分析模型的F检验,统计量为995.393,相伴概率P < 0.001,说明模型整体有统计学意义。由曲线拟合模型对长期趋势的外推预测值依次为3 674、3 725、3 777、3 831和3 886、3 942、4 000、4 059,将其乘以季节指数以后,还原得到2018和2019年医院季度收入的预测值依次为2 990、3 471、3 672、4 911和3 164、3 673、3 886、5 204,平均相对误差为1.11%。

2.5 加权组合预测 2.5.1 加权组合

以上单项模型依次为SARIMA、X11-ARIMA和X11-二次多项式。经过验证发现,模型拟合效果和外推精度都非常不错,分别根据真实值和拟合值计算误差,求残差平方和,分别取倒数以后归一化预处理以后作为建立组合模型的权重。SARIMA、X11-ARIMA和X11-二次多项式的权重依次为0.196、0.580和0.223。根据单项模型的预测结果加权合成以后,求得2018年和2019年医院季度收入预测值依次为3 022、3 496、3 696、4 923和3 196、3 690、3 897、5 176,相对误差平均值仅为0.70%。

2.5.2 模型预测精度比较

经比较,3种单项预测模型的预测误差均在比较不错的范围以内,而且加权组合以后模型的平均相对误差均小于每种单项模型,说明预测能力相比单项模型进一步改进。其中,单项模型预测效果按照优劣顺序依次排列:X11-ARIMA法、X11-二次多项式法、SARIMA法。4种模型误差精度的比较见表 2

表 2 4种模型预测精度的比较
3 讨论

鉴于医院季度收入数据在年度内部各季度中有周期性稳定波动特点,随着年度变化间有长期平滑趋势特点。针对此类卫生事物时序数据的变化特点,从两种建模分析角度开展探索:第一,针对包含季节效应、长期趋势和随机波动特点的原始数据,直接由SARIMA模型,经过4步差分以后对剩余数据资料建立ARIMA模型,提取周期波动信息和长期趋势信息。第二,选择具有季节调整作用的X11法提取季节指数,再由ARIMA模型或曲线拟合模型对经过时间序列分解以后的序列提取长期趋势规律性信息。经分析,两种单项组合预测模型思路各不相同,但是历史拟合效果和外推预测精度均较好、合理。在此基础之上,相比单一模型,建立的加权组合模型预测精度和稳定性较高,与许龄木等[8]的研究结果相似,通过组合预测模型对江苏省卫生人力资源进行预测研究发现,组合模型相较单一模型有更好的预测效果。因此,组合模型是较为理想的预测方法,对于医院季度收入能做到有效预测。及时掌握医院收入的变化情况,可以为医院的卫生资源合理配置提供数据参考,为医院的经营与管理决策提供科学依据。

许多单项方法在卫生管理工作预测应用中常见,但是,对于方法原理和时序资料适用性的论证和方法适配为前提的组合预测模型设计。传统ARIMA模型虽然不受数据类型限制,对随机时序数据资料有通用适应性的优点,但是不易直观解释时序资料的动态演化趋势特征。虽然简单曲线拟合模型能直观反映出序列单调趋势规律变化的特点,但是对于规律复杂、短期随机波动的杂乱数据,难以充分提取信息。多种方法加权组合的方式对于以上模型的优点兼收并蓄,对不同种类信息提取具有优势,能更为充分地提取医院季度收入数据的变化规律。既往的研究多为1种或2种方法的组合比较,与之相比,本研究选择方法较多,不同方法之间有互补性,附加权重并结合起来以后减小了预测误差。基于SARIMA法、X11-ARIMA法和曲线拟合法的二次加权组合模型适于具有周期季节性和长期趋势性的时间序列预测问题,吸取了单项方法优点,拟合效果好、预测精度高。在卫生管理领域人力、财力、物力等资源配置问题通常表现出随着时间具有季节变动和长期单调趋势特征的演化规律,借助于数理统计方法改进和交叉学科研究交流的深入,对于此类时序资料的规律信息提取、拟合性能提高和预测精度改进等问题,有方法论探索意义,组合预测建模技术从而为卫生决策提供定量辅助依据。

·作者声明本文无实际或潜在的利益冲突

参考文献
[1]
马兰, 田庆丰, 郭丽芳, 等. 基于ARIMA模型的河南省医疗服务需求变化趋势及预测分析[J]. 中国卫生统计, 2020, 37(1): 103-105.
[2]
曹星, 宋国强, 周荣耀. 基于组合预测模型的人均卫生费用预测研究[J]. 中国卫生资源, 2017, 20(1): 56-59. DOI:10.13688/j.cnki.chr.2017.16432
[3]
朱泉同, 高山. 基于组合预测模型的江苏省卫生人力资源需求预测探讨[J]. 中国卫生统计, 2020, 37(6): 862-865.
[4]
曹星. 组合预测在卫生费用及卫生人力预测中的应用研究[D]. 合肥: 安徽医科大学, 2017.
[5]
张粝文, 李小菊, 毛璐, 等. 基于组合预测模型的新疆生产建设兵团个人卫生支出分析[J]. 中国卫生事业管理, 2021, 38(7): 511-514.
[6]
陈玲, 程丽君, 赵向军. 恶性肿瘤住院量与住院费用的ARIMA乘积季节模型预测研究[J]. 中国卫生统计, 2017, 34(4): 554-557.
[7]
高明, 唐顺, 徐福文. 医院数据挖掘平台中X11-ARIMA预测模型的应用研究[J]. 中国卫生统计, 2016, 33(1): 139-141.
[8]
许龄木, 汪哲名, 朱航榉. 江苏省卫生人力资源配置的公平性及预测研究[J]. 现代预防医学, 2021, 48(21): 3915-3919, 3939.