中国卫生资源  2023, Vol. 26 Issue (3): 244-248  DOI: 10.13688/j.cnki.chr.2023.230169

引用本文  

钱晨嗣, 夏寒, 夏天, 等. 基于机器学习的公共卫生数据可靠性评估系统的研究与设计[J]. 中国卫生资源, 2023, 26(3): 244-248. DOI: 10.13688/j.cnki.chr.2023.230169

基金项目

2021年科技部科技创新2030-新一代人工智能重大项目“新冠肺炎疫情等公共卫生事件的智能流调研究”(2021ZD0114005);2022年度上海市卫生健康委员会卫生行业临床研究专项“基于机器学习的公共卫生数据可靠性评估模式研究”(20224Y0328)

作者简介

钱晨嗣, 工程师, 硕士, 主要从事卫生信息处理和管理研究, qianchensi@scdc.sh.cn

通信作者

赵丹丹, zhaoyifei420@sina.com

文章历史

收稿日期:2023-03-20
修订日期:2023-04-12
基于机器学习的公共卫生数据可靠性评估系统的研究与设计
钱晨嗣 1, 夏寒 2, 夏天 1, 刘星航 1, 付晨 3, 赵丹丹 2     
1. 上海市疾病预防控制中心, 上海 200336;
2. 上海申康医院发展中心, 上海 200041;
3. 上海市卫生健康委员会, 上海 200125
摘要:随着信息技术的快速发展,卫生健康数据不断增多,数据的可靠性评估是数据实践应用、科学研究的前提和保障。传统的人工、统计学数据可靠性评估方法难以适用于海量数据的可靠性评估,而且造成人力资源的浪费。本研究构建一种基于机器学习的公共卫生数据可靠性评估系统,首先对数据进行存储、标注和规则性质控,并对数据进行特征工程处理,然后选取部分数据由机器学习算法自主训练数据特征并形成数据可靠性评估模型,通过模型来评估其他数据的可靠性,最后进行数据量检验并综合评价数据的可靠性。由此形成数据可靠性评估的新方法、新模式,有助于弥补现有评估方法的不足,提升数据可靠性评估的准确率和效率。
关键词机器学习    可靠性评估    特征工程    公共卫生    
Keywords: machine learning    reliability assessment    feature engineering    public health    

数据可靠性是指数据的准确性和可信程度,描述数据系统或平台中的数据是否均处于客观、真实、完整、可信的状态[1]。近年来,随着技术的快速发展,公共卫生领域聚集了庞大的数据,但数据存在一定问题,世界卫生组织西太平洋地区办公室[2]指出,主要原因有:报告要求定义不清、功能不健全;数据收集不完整、不准确;统计数据来源广泛,没有使用标准化的收集方法,数据格式难以保持一致性;缺乏统计数据报告标准。数据从初始产生和存储,到处理(包括转化或移植)、使用、数据保留、存档/恢复和销毁全生命周期都有可能产生数据质量问题[3];同时数据之间的共享越来越广泛,跨学科交叉领域研究越来越多,很多时候数据使用者不是数据采集者,不知悉数据的采集情况,也无法评估数据的可靠性。公共卫生数据可靠性的高低直接影响和决定数据应用,如数据挖掘、诊疗决策、统计分析的正确性、适用性及其价值性[4]。所以在开展科学研究前,采用科学的方法对拟纳入研究的数据的可靠性进行准确评估是大数据时代科学研究的必要步骤。

机器学习可以通过数据特征发现数据隐藏的函数关系或关联关系,并模拟现实世界中事物间的联系。将机器学习技术应用到数据可靠性评估上,由计算机自主学习部分数据的特征并形成数据可靠性评估模型,并通过模型来评估剩余数据的可靠性,形成数据可靠性评估的新方法、新模式,有助于弥补现有评估方法的不足,提升数据可靠性评估的准确率和效率。这是大数据时代数据可靠性评估的发展趋势,也是很好的研究方向,值得深入挖掘。

1 公共卫生领域数据可靠性的评估方法研究现状

在公共卫生领域,现有的数据可靠性评估方法主要分为基于规则的评估方法、基于内容的评估方法和基于统计的评估方法等3类。

基于规则的评估方法。主要借助规则库实现数据自动校验,提高数据校验效率[5]。基于规则的评估方法虽然可以对全量数据进行评估,但需要更专业的人员建立编码规则库,该类人员既需要相应的医学背景还需要相应的计算机编码知识[6-8]。该方法难以有效应用于多来源、跨行业的数据。

基于内容的评估方法。主要通过其他来源数据对待评估的数据内容进行交叉验证,从而评估数据的可靠性。该方法对于信息偏差具有很好的评估效果,也能在一定程度上提供选择偏差和混杂偏差的线索,但存在高可靠度验证性数据难以获得的情况[9],获取其他来源的数据通常需要耗费大量的时间、精力和经济成本。

基于统计的评估方法。主要通过对待评估数据整体统计结果和分布情况的计算与分析来整体评估数据的可靠性[10]。该方法对选择偏差与信息偏差有着良好的评估效果,也可对全量数据进行评估,但这种方法对数据量有一定的要求,只能得出整体数据的评估结果,难以对每条数据形成独立的评估结果,无法适应大数据时代卫生健康数据可靠性评估的需求。

传统的人工、统计学数据可靠性评估方法难以发现大数据隐藏的客观联系及问题,大数据、机器学习、人工智能等技术能够从海量数据中快速提炼数据经验并形成智能判断。目前已有许多学者采用机器学习方法对数据的可靠性进行评估,主要集中在财务审计[11-13]、人力资源审计[14]、新闻伪造检测[15]、舆情监控与预警[16]、生态环境数据监测[17]、电力系统[18]等方面,卫生领域的研究较少。现有的卫生数据可靠性评估方法无法满足大数据时代海量数据的可靠性评估需求,所以需要探索一种新的机器学习方法以更准确地评估共卫生数据的可靠性。

2 系统设计

本研究提出并构建一种基于机器学习的数据可靠性评估系统,包括数据准备模块、特征工程模块、多模型量化评价模块、数据可靠性评估模块,总体框架如图 1所示。数据准备模块负责存储数据,对数据进行可靠性标注和规则性校验;特征工程模块负责对数据进行特征工程处理,主要包括数据格式处理、离散特征处理、数据降维和平衡标签类别;多模型量化评价模块负责选取多种机器学习算法进行训练,并进行多模型的融合与训练;数据可靠性评估模块负责检验数据量,并对整体数据集数据可靠性进行综合评估。


图 1 数据可靠性评估系统架构

该系统能够确保数据的原始性、安全性、真实性,对已有业务数据采用多种类型的机器学习模型进行实验,在各模型构建完成后,通过量化指标对各模型的性能进行评价和横向比较,判断各类模型在公共卫生数据可靠性评估方面的适用情况,必要时选择合适的模型进行融合,构建多模型融合模型,以改善模型性能,提升对数据可靠性评估的准确率。

2.1 准备模块

该模块主要负责数据的存储、选取部分数据的可靠性标注和数据的规则性质控。

2.1.1 数据存储

数据采集的业务范围广泛,包括但不限于公共卫生领域,但只针对已形成规范的格式化业务数据。本系统采用分布式文件系统对业务数据进行分布式存储,同时数据存储采用加密模式,以确保数据的安全性[19-20]。此外,系统中设有数据审计跟踪功能,该功能负责记录操作人员对原始数据的存储和修改,包括存储修改时间、修改前后的数据等,以确保数据安全。

2.1.2 数据标注

从系统中选取部分数据人工标注可靠性,对可靠的数据赋予可靠性标签,对不可靠的数据赋予不可靠标签。通过少量标签数据预先定义了分类模式,规避了完全无监督机器学习算法可能导致的模型无法解释或构建出无效模型的风险。

2.1.3 规则性质控

数据规则性质控包括完整性检验、数据范围检验、Dixon法、传统Z值法等。其中数据缺失值是评价数据可靠性的重要指标[21],缺失值检验既包括每条记录的数据项缺失值(即每条记录有几个数据项缺失),又包括整个数据集中数据项的缺失值(即在总数据中每个特征有多少条记录缺失该特征)。

2.2 特征工程

该模块主要通过特征工程处理已通过规则性质控的数据。

2.2.1 数据格式处理

对数据的格式进行规范化处理,包括数值类型、特征单位;判断连续型特征数据是否符合正态分布,若符合正态分布则通过归一化或标准化方法对特征数据进行压缩和平移,保留特征的分布状态。

2.2.2 离散特征处理

对于离散型特征,需要将其进行数值化处理,将具体的分类名称转换为编码。如果特征涉及超过2种分类,则需要为不同的分类生成哑特征,利用one-hot编码对特征进行标记。此外,对于时间戳类别特征,可根据实际情况抛弃一些无用信息(例如对于数据可靠性结果没有影响的年份或毫秒数据),以简化模型的构建。

2.2.3 特征降维处理

有些数据的特征重复项很多,为简化模型并提升模型的可解释性,同时缩短模型训练时间,降低模型过拟合风险,避免“维度灾难”,需要对特征进行选择,必要时构建新特征来取代原有特征。

2.2.4 平衡标签类别

根据各类别标签数据的数据量(例如标签类别设为可靠性和不可靠性)判断是否需要对各类别的数据量进行平衡。若各类别标签数据的数据量极不平衡,则会影响后续模型训练,需重新整理数据的标签,增加数据量少的分类下的数据量来平衡各分类的数据量,避免对量大数据分类时使用欠采样的方法,从而减少丢弃标签的情况。

2.3 多模型量化评价

该模块的功能是对已处理过的数据建立模型,然后用该模型来评价测试数据。模型构建采用半监督学习,需要进行数据集的划分,包括划分测试集、验证集和测试集。在本模块预置若干算法模型即备选模型,分别采用多个备选模型对数据集进行实验。若在备选模型中找到性能很好的模型,则该备选模型为最终模型;若未能找到在全区间内性能均最优的模型(即存在多个在局部区间性能最优的模型),则选取多个较优模型进行融合来构建综合模型,以提升模型在全区间内的性能。最后采用选好的模型对测试集数据进行实验并输出测试结果。

2.3.1 数据集划分

依据数据集的总量并结合实际,将数据划分为训练集、验证集及测试集,训练集用于模型的训练,验证集用于模型的验证和超参数的调优,测试集用于最终模型的测试、定型和性能评价。

2.3.2 单模型训练

分别采用每个候选模型对训练集进行训练,在训练集上分别对模型的参数等进行调优,在测试集上对模型的性能进行评价,最终得到模型的最优参数组合。若在候选模型中某几个模型在验证集上的实验结果很好,则选定该模型为备选模型。

2.3.3 多模型融合

若在备选模型中单个模型实验结果都不佳,则选取实验结果较佳的模型进行模型融合。模型融合策略一般包括加权法、投票法及学习法。

2.3.4 模型训练

直接采用已经训练好的模型对测试集的数据进行实验,判断每条测试记录是否可靠,并采用F1得分、混淆矩阵、受试者工作特征(receiver operating characteristic, ROC)曲线、准确率等一个或多个指标评价测试集数据的可靠性情况。

2.4 数据可靠性评估

该模块对整个数据集进行可靠性评估,首先进行数据量统计,包括通过规则性质控的数据和通过模型检验的数据,通过前面的数据准备模块、多模型量化模块已经分别得到数据质控的情况、数据,选取合适的权重来综合评价整个数据集的可靠性。

2.4.1 数据量检验

对相关数据进行计数统计和计算,定义每条记录的数据可靠性,整个数据集的总量为Ntotal,通过数据规则性质控的数据量为Ncontrol,数据处理模块处理的数据量和模型实验的数据量均为Nmodel,模型中训练集、验证集和测试集的数据量分别为NtrainNverificationNtest,其中,Ntotal=Ncontrol+NmodelNmodel=Ntrain+Nverification+Ntest

2.4.2 综合评价数据可靠性

首先根据多模型量化模块生成的模型对测试集进行评价,得出每条记录的可靠性评价结果,并对其打上标签(合格、不合格)。数据可靠性评价包括两部分:规则性质控结果是对整个数据集中经规则性质控的数据的评价,以通过规则性质控的数据占总数据量的比例表示;模型校验结果是对经模型检验为可靠性数据的评价,以通过模型检验为可靠性的数据占总模型实验数据的比例表示。为此,采用一个加权融合的方法来综合评价数据可靠性:定义整个数据集的可靠性为R,通过规则性校验的数据量为Ncontrol,其占总数据量的比例R1,则R1=Ncontrol/Ntotal;定义通过模型检验的可靠性数据量为Nmodel_pass,其占总数据的比例为R2,则R2=Nmodel_pass/NmodelR= a×Ncontrol/Ntotal+b×Nmodel_pass/Nmodel,其中ab为权重系数,取值依赖于实际业务情况。

3 实验案例与结果 3.1 实验数据

以上海市部分辖区的糖尿病随访卡数据为例,共1 226 472条,随访时间为2018年10月—2022年12月,数据包括血压值(包括收缩压、舒张压)、体重和身高字段。

3.2 实验结果 3.2.1 数据标注和规则性质控

随机选取总数据中的24 000条进行数据标注,通过电话回访和人工比对得到24 000条数据中612条数据标注不可靠、23 388条数据标注可靠。本实验中定义缺失项超过包括2项的数据为不可靠数据,分别对总数据集和已标注数据进行缺失值统计,结果见表 1,总数据集有1 226 472条,其中,36 264条数据未通过数据规则性质控,1 190 208条数据通过数据规则性质控。

表 1 数据缺失值统计结果
3.2.2 多模型量化评价

因为研究数据的特征少,为收缩压、舒张压、体重和身高4个数据特征,且这4个特征简单明了,故没有对数据进行特征工程处理。模型实验数据为通过规则性质控的数据,共1 190 208条,划分得到训练集18 426条、验证集4 605条(训练集和验证集为已标注数据中通过规则性质控的数据,共23 031条)、测试集1 167 177条,选取逻辑回归模型、C4.5决策树、随机森林(Random Forest)、支持向量机(SVM)、Bagging、Xgboost 6个模型进行实验,采用平衡F1得分(F1-Score)评价实验结果,模型的F1-Score和运行时间如表 2所示。

表 2 单一模型的平衡F1得分和运行时间

表 2可以看出,Random Forest、Bagging、Xgboost这3个模型能够取得较好结果,采用平均值融合的方法将这3个模型两两融合,模型融合的结果如表 3所示。由表 3可以看出,模型融合的运行时长显著增加,但F1-Score有所提高,其中Bagging + Xgboost模型融合效果最好。采用Bagging+Xgboost对测试集数据进行实验,结果判断354 932条数据可靠。

表 3 模型融合的平衡F1得分和运行时间
3.2.3 数据可靠性评估

通过计算得到通过规则性质控的数据占总数据集的比例为1 190 208/1 226 472=0.970 4,通过融合模型得到测试集中可靠性数据有354 932条,占测试集数据的比例为1 064 796/1 167 177=0.912 3,则整个数据集的可靠性为0.7×0.970 4+0.3×0.912 3=0.953 0,0.7和0.3为工作人员依据实际业务情况确定的权重系数,最终整个数据集的可靠性得分为0.953 0分,可见整个数据集可靠性较高,可进一步对该数据进行探索研究和利用。

4 总结

数据的可靠性对相关应用和科学研究而言是一个至关重要的影响因素。传统人工和统计学的数据可靠性评估方法难以适应大数据背景下百万级、千万级的数据量可靠性评估。本研究提出的基于机器学习的数据可靠性评估模型完善了数据可靠性的评价机制,可在广泛领域的业务条线和业务场景的数据可靠性评估过程中得以应用。

·作者声明本文无实际或潜在的利益冲突

参考文献
[1]
赵宇. 可靠性数据分析[M]. 北京: 国防工业出版社, 2011.
[2]
WORLD HEALTH ORGANIZATION REGIONAL OFFICE FOR THE WESTERN PACIFIC. Improving data quality: a guide for developing countries[EB/OL]. [2023-03-19]. https://apps.who.int/iris/handle/10665/206974.
[3]
刘琦, 肖勇, 陈壮, 等. 基于全民健康信息平台的数据质量治理与思考[J]. 中国卫生信息管理杂志, 2022, 19(5): 681-686.
[4]
何萍, 于广军, 李莉. 数据质量评估在区域医疗信息化中的应用与分析[J]. 中国数字医学, 2010, 5(3): 53-55.
[5]
林琳, 王韬, 邓超颖. 智能化病历内涵质控平台设计及应用[J]. 中国数字医学, 2019, 14(11): 48-50, 112.
[6]
王芸, 刘正荣, 严华倩. 建立审核规则库以提升病案首页质量的实践探索[J]. 中国数字医学, 2021, 16(10): 41-44.
[7]
刘静, 刘丽红, 张竹绿, 等. 使用数据清洗技术进行中医药数据仓库质量控制研究[J]. 中国数字医学, 2012, 7(4): 81-82, 85.
[8]
MEDLOCK S, PLOEGMAKERS K J, CORNET R, et al. Use of an open-source electronic health record to establish a "virtual hospital": a tale of two curricula[J]. Intern J Med Inform, 2023, 169: 104907. DOI:10.1016/j.ijmedinf.2022.104907
[9]
GRAY W N, WENG C H. Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research[J]. J Am Med Inform Assoc, 2013, 20(1): 144-151.
[10]
IYEN-OMOFOMAN B, HUBBARD R B, SMITH C J, et al. The distribution of lung cancer across sectors of society in the United Kingdom: a study using national primary care data[J]. BMC Public Health, 2011, 11: 857. DOI:10.1186/1471-2458-11-857
[11]
PATEL H, PARIKH S, PATEL A, et al. An application of ensemble random forest classifier for detecting financial statement manipulation of Indian listed companies: IC32018[M]//Recent Developments in Machine Learning and Data Analytics. [s. l. ]: Springer, 2019, 740: 349-360.
[12]
王月, 王玥. 基于Logistic回归分析的我国上市公司财务舞弊识别模型研究[J]. 商场现代化, 2021, 10: 134-136.
[13]
刘思茹. 基于特征工程的信用卡欺诈识别研究[D]. 兰州: 兰州大学, 2021.
[14]
贺雅喆, 蔡真捷. 基于Python的随机森林算法在电网企业人力资源审计中的应用研究[J]. 中国内部审计, 2021, 8: 44-50.
[15]
NASIR J A, KHAN O S, VARLAMIS I. Fake news detection: a hybrid CNN-RNN based deep learning approach[J]. International Journal of Information Management Data Insights, 2021, 1(1): 100007. DOI:10.1016/j.jjimei.2020.100007
[16]
马帅. 面向在线旅游服务的网络舆情监控与预警研究[D]. 太原: 山西财经大学, 2019.
[17]
李美娇, 何凡能, 赵彩杉, 等. 全球历史LUCC数据集新疆地区耕地数据可靠性评估[J]. 生态环境学报, 2022, 31(6): 1215-1224.
[18]
左先旺, 荣先钊. 电力系统运行可靠性分析与评估[J]. 电子测试, 2019, 14(24): 65-69.
[19]
金国栋, 卞昊穹, 陈跃国, 等. HDFS存储和优化技术研究综述[J]. 软件学报, 2020, 31(1): 137-161.
[20]
林素标. 数据存储加密技术进展研究[J]. 数字化用户, 2022, 28(16): 144-146.
[21]
梁力中, 陶光毅, 孙丽, 等. 某市400余万份住院病案首页数据质量分析[J]. 中国卫生信息管理杂志, 2021, 18(3): 426-430.