2. 上海交通大学公共卫生学院, 上海 200025;
3. 上海市儿童医院(上海交通大学附属儿童医院), 上海 200062
大数据已成为国家重要的基础性战略资源和社会生产要素,具备大容量(volume)、速度(velocity)、多样性(variety)、准确性(veracity)、可变性(variability)和价值属性(value)的“6V”特点[1]。健康医疗大数据是指在疾病防治、健康管理等过程中产生的与健康医疗相关的数据[2]。健康医疗大数据共享和开放已成为世界各国的普遍共识,数据共享程度可以反映出一个国家或地区的信息发展水平,数据共享程度越高,信息发展水平越高。在聚力发展数据共享基础设施建设之后,如何安全可控地在临床诊疗、患者信息获取、公共卫生信息共享、行政管理决策、科研使用等典型场景[3]下,推进跨区域、跨机构、跨部门的健康医疗数据共享,充分发挥数据资源潜力、激活数据资源价值成为新的关注点。
1 健康医疗数据共享的概念及分类数据共享一词最早出现在20世纪80年代,目前对于数据共享概念的界定仍未统一[4]。“百度百科”对数据共享(data sharing)的定义为:让在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作、运算和分析。关健[5]认为,数据共享是指公开或在特定访问条件下向其他研究人员提供个人数据,包括原始数据、衍生数据,还包括数据用户之间的数据传输或数据交换。郭兵等[6]认为,数据共享是指政府、企业以及个人间共享数据的使用权和知情权。孙小康[7]认为数据共享是指通过各种便于发现和访问的途径或设施,向符合权限的用户提供可用数据开展合规研究的过程。《福州市健康医疗大数据资源管理实施细则》[8]对数据共享的定义是:监管机构将数据提供给国家机关、事业单位、社会团体及具有公共管理职能的组织和公共服务企业共享使用的行为。在临床场景下,数据共享最主要的目的是打破内部壁垒、消除数据孤岛、减少重复劳动,进而提高工作效率、降低时间和经济成本。在科研场景下,数据共享有助于增加研究价值、减少研究浪费、验证研究结果、促进研究的透明度、通过对共享数据的再分析取得新发现。根据不同的侧重点和分类,数据共享模式主要包括以下4种。
从范围上来看,广义的数据共享包括跨部门、跨机构、跨区域甚至跨国家的数据共享。但由于不同区域、不同医疗集团间医疗信息化发展程度不同,我国大部分数据共享还仅限于单一区域、单一医疗集团内,在国家层面上形成医疗数据共享的案例仍较为少见[9]。
从主导方式来看,数据共享包括由政府主导的公益性模式、由科研机构或医疗机构主导的联盟模式、由市场主导的商业化模式。例如,国家人口与健康科学数据共享服务平台是国家科技基础条件平台之一,面向全社会免费开放,提供服务。中国队列共享平台是由北京大学公共卫生学院和北京大学健康医疗大数据国家研究院牵头发起的队列联盟。中国国家罕见病注册系统是依托“十三五”国家重点研发计划精准医学专项,由北京协和医院负责牵头建设的国家级罕见病在线注册平台。中国科学院数据云以中国科学院相关数据为基础,对数据进行集成和再加工,面向社会产业创新需求开展服务。
从时序性来看,数据共享可分为回顾性、前瞻性与双向整合3种,常见于多中心临床研究[10]。回顾性整合是在项目数据收集已经完成的情况下开展的数据整合与共享工作;前瞻性整合是在项目开始时就有数据共享的意愿,针对某个特定领域定义最小信息标准,即理解一个数据对象及其背景所必需的说明信息,不同项目以相同的标准来收集数据[11];双向整合则结合前两者的优点,适用于数据收集已经开始但尚未完成的情况,基于现有数据建立标准化数据模型,不但对过去收集的数据进行映射与转化,而且基于统一标准在未来继续收集数据。
从应用方式来看,数据共享可分为线上共享和线下共享,具体包括线上授权及线下授权两类颗粒度权限控制模式[12]。线上权限是指在线工作状态下的操作权限,包括在线浏览、查询、检索、下载等;线下权限是指离线状态下的操作权限,包括电子邮件、可移动存储设备、现场递交等。
2 我国健康医疗数据共享的关键问题根据《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》的工作部署,计划到2017年底,基本形成跨部门健康医疗数据资源共享共用格局,到2020年,建成国家医疗卫生信息分级开放应用平台,实现人口、法人、空间地理等基础数据资源跨部门、跨区域共享。尽管全国各地建成了一批分级、分类、不同应用主体的卫生信息平台,为实现跨区域数据共享提供了技术支撑,但目前多中心的数据交换仅完成了数据的物理汇聚,尚未做到数据语义和结构的统一,我国健康医疗数据共享开放仍然处于初级阶段。在具体实践中,健康医疗数据共享效率不高、共享范围有限、数据价值未得到充分挖掘,在数据共享过程中仍然面临着技术之外的重重困境[14]。
2.1 隐私安全难以保障随着智能手环、智能手表等可穿戴设备逐渐进入日常生活,人们足不出户就可以实现健康管理。然而,由此造成的个人信息被不当收集、过度利用,甚至泄露的现象屡见不鲜,给数据治理与监管提出了极为迫切的个人隐私保护诉求。高质量的临床数据凝结着数据提供者的大量心血,担心数据共享后会存在个人隐私泄露风险和信息安全隐患[15]。数据使用者也对数据的真实性、准确性和完整性存在质疑,无法获知数据集信息和数据的真实含义进而导致错误应用[16]。
2.2 协作机制不健全数据共享的最大阻碍不在于技术,而在于业务协作机制的不健全[17]。目前我国健康医疗数据共享的政策建议针对宏观层面,微观层面对具体内容的指导有待加强[7]。由于我国经济发展的地区差异性,不同地区不同级别的医疗机构间信息化程度差异较大。此外,不同类型医疗机构间缺乏充分的跨业务数据共享,主要局限在同一类型的机构之间,与疾病预防控制中心、妇幼保健所、医疗保障和社会保障等其他行政部门缺乏联动[18],整体呈现“纵向共享单一、横向共享较少”的特点。数据共享业务流程由于涉及收集、汇交、管理、存储、共享和利用等多个环节,容易出现数据内容、数据质量、数据格式不统一的现象。虽然我国已颁布了《国家健康医疗大数据标准、安全和服务管理办法》《科学数据管理办法》等一系列指导性文件,但责任权利不清、数据权属不明、数据需求不同,导致各机构重视度和配合度不足,组织协作难度大,缺乏完善的信息反馈机制,多元数据主体间难以达成共识。
2.3 信息标准不统一医疗健康大数据具有多源异构性,按照结构形式可分为结构化数据、非结构化数据和半结构化数据。尽管系统内长期积累了大量冗余数据,但数据质量良莠不齐,因此必须进行整合、清洗和转换,为后续数据挖掘分析奠定基础。信息标准化是研究、制定和推广应用统一的信息分类分级、记录格式及其转换编码等技术标准的过程[19]。我国医疗信息标准化建设起步较晚、标准操作性不强,尽管已初步启动了国家健康医疗大数据资源目录体系的研究,但目前医疗机构多自主招标建设信息系统,不同厂商采用的数据接口和数据格式不统一,系统无法兼容匹配,元数据采集重复,数据颗粒度不一致,难以实现机构间的数据交换与共享。
3 推动我国健康医疗数据共享的几点建议掣肘健康医疗数据共享的关键问题主要体现在管理机制和技术标准2个方面。成功的健康医疗数据共享活动多发生在小范围利益相关团体中,因此亟需解决以下2个问题[12]:一是如何协调利益冲突并通过管理手段达成共识;二是如何按照标准规范建立起跨机构甚至跨区域的数据共享平台及数据交换机制。制定共享策略是为了规范数据共享及管理行为,保证高效的数据协作,同时保护各利益相关方的合法权益。
3.1 完善法律法规,形成中国方案健康大数据不同于其他类型数据,涉及个人基因信息、疾病史、使用药物史、家族史等敏感信息。因此,隐私安全是我国健康医疗数据共享中不可逾越的警戒线[20]。共享数据越完整,潜在价值越大,但隐私泄露的风险也越大;反之,过度强调保护个人隐私,数据使用协议越严格,访问控制越复杂,数据开放共享的限制越大。如何平衡好隐私保护与数据共享,成为解决数据共享的关键问题之一[21]。医疗健康数据的共享既需要技术手段的保障,也需要政策的规范与引导。一方面,该矛盾促使业界尝试通过技术方案解决隐私安全和数据共享激励问题,以联邦学习[22]、多方安全计算、同态加密、差分隐私等为代表的隐私安全计算技术正加速从理论走向实践。另一方面,随着全球数据隐私法规的密集发布,数据保护立法与监管在世界范围内掀起一波新浪潮,包括中国在内的发展中国家在数据保护规制方面刚刚起步,以欧洲联盟、美国为代表的早期出台相关法律规制的发达国家也陆续开始启动立法修订工作[23]。美国《加州隐私权法案》(California Privacy Rights and Enforcement Act, CPRA)于2020年11月正式通过,该法案在此前颁布的《加州消费者隐私法案》(California Consumer Privacy Act, CCPA)基础上进行了增补和修订。与此同时,以美国CCPA和欧洲联盟《通用数据保护条例》(General Data Protection Regulation, GDPR)为代表的发达国家对数据保护的监管执法力度越来越大,执法案件数量和罚款金额总额持续增长。在中国,个人信息保护的完整法律框架逐渐清晰,2020年陆续发布了《数据安全法(草案)》《个人信息保护法(草案)》《民法典》,起草专门章节规定了“隐私权与个人信息保护”的相关内容,说明我国对个人信息隐私保护的日益关注,正逐步形成数据合规的中国方案。但当前我国健康医疗数据共享的管理办法和实施细则尚不健全,只有福建福州、贵州贵阳、山东省和四川省等个别地区率先出台了健康医疗大数据应用发展的地方性法规和管理办法。下一步,我国应紧密结合医疗健康行业的发展特点,出台健康医疗数据的行业法,对个人隐私信息保护制度加以细化,针对不同应用场景下的个人信息提供更全面的保护。
3.2 权利义务对等,兼顾多方需求权利与义务对等是确保数据共享畅通的内在保障[24]。现行的管理办法一方面强调无偿提交完整数据的义务,另一方面却未提及共享数据应享有的权利,导致共享积极性不高,将有价值的数据占为己有。患者作为健康医疗数据的生产者之一,在数据共享行为中的主体权益被明显弱化,被动参与数据共享。此外,数据的采集、整合、清洗、比对都需要相当大的人力和物力支撑,在形成收支平衡的产业链之前,初期的建设经费和后期运维费用往往需要数据控制者--医疗机构自主承担,造成基层医疗机构无力负担,大中型医院积极性不高[25]。然而,不论是无偿共享还是有偿共享,都应体现各方需求,参与共享活动的个人或团队都应该有明确的价值体现。在医疗场景下,政府部门可利用医疗保险的杠杆作用,控制检查检验类费用在医疗保险支付中的占比,推动医疗机构检查检验结果的互联、互通、互认,进而推动区域医疗一体化。在科研场景下,数据提供者和数据使用者可以通过签署数据共享协议(data sharing agreement, DSA),事前明确主体责任、工作机制、共享时间、共享范围、共享模式、共享流程和利益分配,推动建立共享数据的出版和引用制度。目前,世界正处于以海量真实世界数据为基础的循证医学时代,然而,国内外尚未对数据共享的激励机制达成共识。国外一项荟萃分析研究结果表明,“开放数据”证章(badges)是目前唯一经过论证的数据共享激励措施[26],即研究者同意共享数据,期刊出版方会在其文章版面上增加“开放数据”证章,该激励方式虽然成本较低,但仍然存在信用风险[27],无法完全保证共享数据和材料的可访问性、正确性、可用性和完整性,同时还可以标注上合作方收集的研究数据链接以及合作方的具体身份,并在相关网站进行公示。此外,对于数据使用者实行分级分类授权管理,申请使用数据时应正式递交数据管理计划,向数据管理部门具体阐明申请数据的类目、用途和时限,经数据提供者知情同意和数据管理部门审批通过后方可使用,并承诺在项目结束后立即销毁数据,不得重复使用。
3.3 重视数据治理,编制资源目录有学者[5]指出,理想的数据共享策略是基于共享数据涉及的隐私内容和潜在风险制定数据风险等级评估标准,设立分级分类的数据共享模式,综合考虑数据自身性质匹配适宜的管理机制。2014年6月,中国代表团在悉尼召开的“IT服务管理与IT治理分技术委员会首次全会和工作组会议”上首次提出数据治理的概念[28]。目前国内外对于这一概念暂未形成统一的定义,国际数据管理协会(Data Management Association, DAMA)认为,数据治理是指对数据资产管理行使权力和控制的活动集合。相比数据管理,数据治理更强调国家级、省级卫生主管部门、医疗信息行业协会以及机构高层管理者统一协调、共同协作,建立起一套自上而下、分工科学、协作紧密、流程明晰的数据治理组织体系。目前我国在医疗健康领域的数据治理处于起步阶段,存在着“重创造轻管理、重数量轻质量、重业务轻增值”的现象,亟需健全的治理体系和有效的解决方案[29]。近年来,国内外相关机构在数据治理领域开展了深入的理论研究,提出国际标准数据治理框架、数据治理协会(Data Governance Institute, DGI)数据治理模型、DAMA数据治理模型、国家标准化管理委员会数据治理框架等多种代表性的理论体系。鉴于我国健康医疗数据资源分布分散、资源查询难度大、资源可获取性低的现况,近年来,国家及各省发布的相关政策文件均明确提出构建健康医疗大数据资源目录体系以促进资源开放共享的要求。数据资源目录体系是指按照一定的分类架构和标准规范,形成有序的信息资源管理、服务与共享组织方式[30]。编制资源目录和业务需求分析是实现健康医疗大数据资源信息共享和业务协同的基础。通过交换体系对资源目录进行跨区域整合,构成“物理上分散、逻辑上集中”的分布式目录管理体系[31]。文献研究发现,国内外的资源目录体系研究均始于政务资源目录体系建设,美国、加拿大、英国、澳大利亚的电子政务目录体系研究均早于中国,我国可以在参考借鉴各国政务资源目录体系的基础上,构建健康医疗大数据资源目录管理体系[32]。在具体实施层面,建议在大型三级甲等医院设置专门的数据管理员,负责梳理业务流程、调研信息需求和制定数据治理计划,规范引导数据管理全流程,提升资源利用效率和内在价值。充分利用专科联盟和远程协作网等医疗联合体合作模式,经过前期充分调研,统筹规划跨区域数据共享平台建设,通过横向共享和纵向汇聚,把联盟内数据资源集中在统一的平台上,实现健康医疗大数据的资产化管理。此外,还应建立完善的信息反馈机制,数据共享的价值是通过双方充分的互动来体现的,及时反馈不仅可以实现信息双向采集、缓解信息不对称,而且可以提高共享的积极性。
3.4 通用信息标准,整合异构数据整合多源异构的临床数据、统一信息系统标准是实现健康医疗数据共享的技术手段。国际上提出通用数据模型(common data model, CDM)的概念,即不同机构通过使用相同的数据模型进行分析,在本地环境就可以实现标准化操作,在数据端完成统计分析,不仅省略了数据交换的步骤,而且可输出直接用于科研分析的数据[33]。临床数据与科研数据的内容有重叠但不完全一致,2种类型数据的CDM往往遵循不同的标准。针对临床数据包括“HL-7”标准协议和“openEHR”标准,针对科研数据包括“临床数据交换标准协议(Clinical Data Interchange Standards Consortium, CDISC)”和“观察性健康医疗数据科学与信息学(Observational Health Data Sciences and Informatics, OHDSI)标准”。“HL-7”提供了规范单次医疗事件所需要交换的数据格式及数据内容的标准框架,旨在通过汇集不同厂商的软件间接口的标准格式,允许各医疗机构在异构系统间进行数据交互[34-36]。“openEHR”是一种开放的国际医疗信息模型标准,只需对已公开发布的模型中未定义的数据项进行扩展即可完成建模,不但具有较好的可扩展性,而且便于临床研究者理解。CDISC作为目前国际上应用最为广泛的临床试验标准,涵盖了研究方案设计与数据采集、分析、交换、递交等环节的一系列标准,每项标准均具有大量的指导文件和具体的操作指南。OHDSI是针对临床观察性数据提出的通用数据模型,包括标准化术语表、标准化临床数据表、标准化健康系统数据表、标准化卫生经济数据表等模块[10, 37]。
4 应用实践为解决临床数据可及性和可用性低的问题,构建临床科研数据平台已逐渐成为研究型医院建设的重点内容。由于病种间的差异,不同专科的医师需要采集的数据项目和类别不尽相同,通用的电子病历模板早已不能满足科室多样化的数据需求,可以集中管理单病种病案信息的专病数据库应运而生[38]。专病数据库以患者为中心,将分散在医院各类信息系统中的临床诊疗数据进行采集、汇总、清洗、存储、分析,临床医师可以在短时间内全面了解患者病情,数据库也可以快速完成全方位关联的病例数据采集,还可以为多中心临床研究提供数据服务。平台化是近年来临床科研数据库建设的发展趋势,针对共性需求提供通用化的服务,在此基础上由研究者根据研究需要自行定义数据内容及相关功能,实现通用化和定制化的结合[39]。
·作者声明本文无实际或潜在的利益冲突
[1] |
关健. 医学科学数据共享与使用的伦理要求和管理规范(九): 医学科学大数据及其属性[J]. 中国医学伦理学, 2020, 33(12): 1427-1432. |
[2] |
国家卫生健康委员会. 关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)的通知: 国卫规划发[2018] 23号[A]. 2018.
|
[3] |
胥婷, 于广军. 健康医疗大数据共享的应用场景及价值探析[J]. 中国数字医学, 2020, 15(7): 1-3. DOI:10.3969/j.issn.1673-7571.2020.07.001 |
[4] |
BORGMAN C L, 青秀玲. 科研数据共享的挑战[J]. 现代图书情报技术, 2013, 63(5): 1-20. |
[5] |
关健. 医学科学数据共享与使用的伦理要求和管理规范(二): 隐私变迁与挑战[J]. 中国医学伦理学, 2020, 33(3): 288-293. |
[6] |
郭兵, 李强, 段旭良, 等. 个人数据银行: 一种基于银行架构的个人大数据资产管理与增值服务的新模式[J]. 计算机学报, 2017, 40(1): 126-143. |
[7] |
孙小康. 精准医学大数据汇交与共享政策研究[D]. 北京: 北京协和医学院, 2018.
|
[8] |
福州市人民政府办公厅. 关于印发《福州市健康医疗大数据资源管理实施细则》的通知: 榕政办[2017] 299号[A]. 2017.
|
[9] |
徐雪枫. 公立医院医疗数据共享研究: 以浙江省医疗影像资源共享为例[D]. 杭州: 浙江工业大学, 2020.
|
[10] |
孙一鑫, 裴正存, 詹思延. 呼吸系统疾病专病队列研究的标准制定与数据共享[J]. 中华流行病学杂志, 2018, 39(2): 233-239. DOI:10.3760/cma.j.issn.0254-6450.2018.02.019 |
[11] |
SPICHTINGER D, BLUMESBERGER S. FAIR data and data management requirements in a comparative perspective: Horizon 2020 and FWF policies[J]. VOB-Mitteilungen, 2020, 73(2): 35-44. |
[12] |
李静, 单既桢. 大数据时代下区域健康医疗数据资源共享及安全防护机制研究[J]. 信息技术与信息化, 2019, 229(4): 132-134. DOI:10.3969/j.issn.1672-9528.2019.04.042 |
[13] |
徐志祥, 崔建民. 大数据时代我国区域医疗数据共享存在问题及对策[J]. 现代医院管理, 2017, 15(3): 25-27. DOI:10.3969/j.issn.1672-4232.2017.03.009 |
[14] |
张泽洪, 熊晶晶. 医联体的协同困境与基于信任的改善[J]. 中华医院管理杂志, 2017, 33(8): 565-568. DOI:10.3760/cma.j.issn.1000-6672.2017.08.002 |
[15] |
魏明月, 崔文彬, 王淑, 等. 互联网医院风险分析与管控策略[J]. 中国卫生资源, 2020, 23(2): 99-101. DOI:10.3969/j.issn.1007-953X.2020.02.003 |
[16] |
杨啸林, 杨晟, 潘虹洁, 等. FAIR准则与生物医学数据标准应用服务[J]. 中国医学伦理学, 2020, 33(2): 153-159. |
[17] |
李娟. 北京市分级诊疗中信息资源共享需求及策略研究[D]. 北京: 北京协和医学院, 2016.
|
[18] |
夏文清. 恩施州医疗信息共享平台建设研究[D]. 武汉: 华中师范大学, 2015.
|
[19] |
康晓华. 探讨企业管理模式中的信息标准化[J]. 企业导报, 2012(13): 207. |
[20] |
杨朝晖, 王心, 徐香兰. 医疗健康大数据分类及问题探讨[J]. 卫生经济研究, 2019, 36(3): 29-31. |
[21] |
LANE J, SCHUR C. Balancing access to data and privacy: a review of the issues and approaches for the future[J]. Health Serv Res, 2009, 45(2): 1456-1467. |
[22] |
陈国润, 母美荣, 张蕊, 等. 基于联邦学习的通信诈骗识别模型的实现[J]. 电信科学, 2020, 36(S1): 304-310. |
[23] |
腾讯研究院. 规则的激荡与新生: 2020年数据治理年度报告[R/OL]. (2021-03-02)[2021-04-01]. https://www.tisi.org/17755.
|
[24] |
邢文明, 洪程. 开放为常态, 不开放为例外: 解读《科学数据管理办法》中的科学数据共享与利用[J]. 图书馆论坛, 2019, 39(1): 117-124. |
[25] |
马诗诗, 于广军, 崔文彬. 区域卫生信息化环境下健康医疗大数据共享应用思考与建议[J]. 中国数字医学, 2018, 13(4): 11-13, 25. DOI:10.3969/j.issn.1673-7571.2018.04.004 |
[26] |
KIDWELL M C, LAZAREVIC L B, BARANSKI E, et al. Badges to acknowledge open practices: a simple, low-cost, effective method for increasing transparency[J]. PLoS Biology, 2016, 14(5): e1002456. DOI:10.1371/journal.pbio.1002456 |
[27] |
ROWHANI-FARID A, ALLEN M, BARNETT A G. What incentives increase data sharing in health and medical research? A systematic review[J]. Res Integr Peer Rev, 2017, 2(12): 4-10. |
[28] |
张明英, 潘蓉. 《数据治理白皮书》国际标准研究报告要点解读[J]. 信息技术与标准化, 2015(6): 54-57. DOI:10.3969/j.issn.1671-539X.2015.06.015 |
[29] |
胡建平. 医院数据治理框架、技术与实现[M]. 北京: 人民卫生出版社, 2019.
|
[30] |
孟群, 胡建平, 董方杰, 等. 我国健康医疗大数据资源目录体系建设研究[J]. 中国卫生信息管理杂志, 2017, 14(3): 387-391. |
[31] |
王卫文, 谢先江. 电子政务信息资源目录体系构建研究[J]. 现代情报, 2006, 26(7): 219-222. |
[32] |
韦安琪. 湖北省健康医疗大数据资源目录体系研究[D]. 武汉: 华中科技大学, 2019.
|
[33] |
李丹彤, 梁会营, 刘广建. 临床科研数据库建设中的数据标准化问题探讨[J]. 中国数字医学, 2021, 16(1): 29-34. |
[34] |
MEEHAN R A, MON D T, KELLY K M, et al. Increasing EHR system usability through standards: conformance criteria in the HL7 EHR-system functional model[J]. J Biomed Informat, 2016, 63(8): 169-173. DOI:10.1016/j.jbi.2016.08.015 |
[35] |
刘倩. Hadoop云环境下基于HL7 V3的医疗数据交换平台的研究与设计[D]. 成都: 电子科技大学, 2017.
|
[36] |
陆宇宏. 基于HL7中间件的区域医疗异构数据共享实现[J]. 中国医疗器械杂志, 2017, 41(1): 66-69, 75. |
[37] |
PETER R R. Converting to a common data model: what is lost in translation?[J]. Drug Safety, 2014, 37(11): 893-896. DOI:10.1007/s40264-014-0221-4 |
[38] |
顾颖. 专科病例数据库建设现状与对策[J]. 中华医学图书情报杂志, 2011, 20(11): 20-22. |
[39] |
薛万国, 乔屾, 车贺宾, 等. 临床科研数据库系统的现状与未来[J]. 中国数字医学, 2021, 16(1): 2-6. |