2. 郑州大学第一附属医院, 郑州 450052;
3. 互联网医疗系统与应用国家工程实验室, 郑州 450052
2. The First Affiliated Hospital of Zhengzhou University, Zhengzhou 450052, Henan China;
3. China National Engineering Laboratory for Internet Medical Systems and Applications, Zhengzhou 450052, Henan China
精准医疗时代的到来为接受精准诊断和治疗的患者带来了新的机遇和挑战,为疾病的识别和预防提供了新的思路和手段[1]。精准医疗服务的关键是多源异构数据融合基础上的辅助决策,精准医疗实施过程中需要对临床、生物、健康等信息进行采集、整合、处理、分析和转化应用,需要从庞大的医学信息中提取规则,找到精准医疗的靶点和方法,从数据的收集、管理到分析都需要数据的融合[2],它们对计算机分析来说是最具挑战性的。
国务院副总理马凯曾在大数据产业博览会中提到:融合是大数据的价值所在,应大力推动大数据的产业融合,开展数据开发,充分挖掘大数据的价值。而医疗数据结构复杂,标准不统一,且分布在不同的机构中,即便是同一类诊疗数据,也会因为厂商不同而无法整合、兼容,数据割裂,无法全面勾勒患者、疾病特性全貌,导致对疾病的认识比较片面,可能作出错误决策。另一方面,精准医疗数据本质上是异构的,除了具有大数据的4V特性[3]外,还具有高维、高计算和高不确定性[4],使得精准医疗数据呈现多源异构的复杂特性。因此,理解和融合异构数据是实现精准医疗的关键,是发展精准医疗的基础和前提,也是精准医疗需重点突破的关键技术,为精准医疗服务提供数据质量保障。
针对精准医疗中数据形式不规范、没有固定的标准、数据融合困难等问题,标准化是整合和规范多源异构数据融合的重要手段,能够有效地将理论研究转化为实际生产力,大大促进精准医疗的发展。但是我国现在还没有建立基于精准医疗的多源异构数据融合的标准体系。由于数据融合问题,我国医疗大数据的利用率较低,还未对丰富的数据进行有效的挖掘利用,导致大量数据闲置,故亟需建立面向精准医疗的多源异构数据融合标准体系。本文分析了精准医疗中数据的多源异构性、数据融合标准需求和数据融合的特点,借鉴标准体系方法论模型,从层次维、时间维和种类维构建精准医疗数据融合标准框架,基于多维集成视角构建精准医疗多源异构数据融合标准体系,为规范精准医疗多源异构数据的融合提供理论基础,助推精准医疗的发展。
1 精准医疗数据融合标准需求当前,互联网、云计算、机器学习和物联网等技术快速发展,医疗信息化进程发展迅速。医疗健康数据涵盖人的全生命周期,不仅包括临床诊断数据、影像数据、基因数据、健康数据,还包括生活习惯、行为选择等个性化数据,这就使得医疗健康数据正在以惊人的速度迅速增长,医疗健康领域进入“大数据”时代[5],医疗大数据的挖掘已经成为医疗信息化进程的重要手段[6]。
精准医疗在医疗大数据的基础上,对相关医疗数据进行深入关联挖掘,识别数据的内在联系,发现规则,实现精准预防、精准治疗和精准用药等。而精准医疗数据的来源和类型广泛,生物样本数据可以通过区域医疗健康协同中心、社区医疗中心、基层医疗中心、精准医疗示范基地、精准医学实验室和健康移动终端等途径获取,数据类型也多种多样,包括临床数据、基因数据、健康数据、环境数据等。因此,精准医疗需要通过对各种数据的分析处理进行精准医疗实践,其关键技术则是对多源异构数据的融合,将结构化、半结构化和非结构化的数据进行结构化处理,为精准医疗大数据分析提供可以编译的结构化数据。
多源异构数据融合能消除冗余,有效减少无效数据信息,减少数据量,方便快捷地获取确定和有价值的语义和数据信息[7]。因此,精准医疗多源异构数据的融合是实现大数据分析的前提和基础,是实现精准医疗的关键技术和研究热点,是推动精准医疗发展的客观需求。标准化是规范多源异构数据融合的重要手段,但是,由于我国目前针对精准医疗多源异构数据融合的标准体系研究不足,亟需开展此方面的标准化研究。
2 相关理论基础 2.1 标准化系统工程标准化系统工程是系统工程中的一类,它利用现代科技的成果对特定的社会过程和技术过程的全部标准化活动进行计划、组织、实施、管理和控制,是将系统工程理论应用于标准化构建的过程中[8],旨在通过制定标准化体系以规范和约束某一活动行为。标准化系统工程的六维方法论模型是由霍尔的三维结构和标准化三维体系相结合并重构的产物[9]。霍尔三维结构采用了时间、逻辑和知识的三维结构[10],标准化三维体系采用了层次、专业、种类的三维结构[11]。
2.2 多源异构数据融合流程多源异构数据的融合是将多个来源、不同结构的数据进行抽取、融合,面向精准医疗的多源异构数据融合即从区域医疗健康协同中心、社区医疗中心、基层医疗中心、精准医疗示范基地、精准医学实验室和健康移动终端等途径获取结构化、半结构化和非结构化的数据进行融合,供大数据分析中心和数据分析模型处理和分析,进而应用到精准医疗实践中的过程(图 1)。
面向精准医疗的多源异构数据融合标准体系的构建,要求体系框架完备但也不会过于笼统,体系框架之间不会相互交叉重叠但也不会缺失,构建合理的精准医疗多源异构数据融合标准体系,有效指导精准医疗实践工作。从精准医疗数据融合的需求和内容来看,精准医疗数据融合标准体系应该涵盖精准医疗的数据处理过程和包含的数据种类,从不同层面制定相应的精准医疗数据融合标准体系。因此,时间维、层次维和种类维三个维度即能满足精准医疗数据融合标准体系构建的要求。基于此,为了充分考虑标准体系的各个方面,本文借鉴标准化系统工程理论的六维方法论模型,从时间维、层次维和种类维三个维度分析,构建面向精准医疗的多源异构数据融合标准体系框架模型。在时间维上按照精准医疗多源异构数据融合的基本流程,根据实际情况不断补充;在层次维上包括从国家标准到专业标准的各个层次;在种类维上根据精准医疗多源异构数据种类进行划分。
3.2 精准医疗数据融合标准体系框架构建根据上文的描述,借鉴标准体系方法论模型,选择从时间维、层次维和种类维三个维度进行细分和补充,共同构建了面向精准医疗的多源异构数据融合标准体系框架(图 2)。
层次维即为精准医疗多源异构数据的标准层次。根据标准的实际需求和适用性程度,按照标准依次宽松的原则,从专业标准到基础标准,本文将精准医疗的多源异构数据融合标准划分为:其他标准、医疗机构标准、行业标准和国家标准。
3.2.2 时间维时间维即是将活动按照时间序列的过程进行划分,从活动开始到结束的全过程。面向精准医疗的多源异构数据融合的流程包括连接、理解、转换、整合、分析。所以,按照多源异构数据融合的流程,将三维结构的时间维划分为五类。连接是根据数据需求,连接所需的多源数据库并获取相关数据,从不同的机构、设备、途径中收集数据信息,汇总到精准医疗多源异构数据分析平台中。要实现精准医疗,理解异构数据是必要且至关重要的[12],理解是对所获取的数据进行理解,理解数据含义、结构和方式等。转换是将抽取的一手、二手和科学数据进行结构转换,在当前数据库中构建数据结构存储抽取的数据信息。整合即是将抽取的数据进行梳理整合,将多源异构数据进行结构化处理,转换为模型所能识别的数据形式,对数据进行清洗,保证数据的完整性,形成新的数据信息集。分析是将转换好的结构化数据进行统计分析和数据挖掘,来满足常见的或者高级别的数据分析需求,并将分析结果应用于精准医疗实践中。
3.2.3 种类维面向精准医疗的多源异构数据来源和种类多样,可划分为结构化数据、半结构化数据和非结构化数据。结构化数据是指那些可以使用关系型数据库存储和表示的,表现为二维形式的医疗健康数据。半结构化数据是结构化数据形式的一种,它不符合关系型数据库或其他数据表形式关联起来的数据结构,但它有基本固定的结构模式。非结构化数据则是没有固定模式结构的数据,如各种文档、图形、图像、音频、视频等。
3.3 多维集成视角下标准体系的构建依据国家标准“三大板块”的价值理念和多维集成视角下的精准医疗多源异构数据融合标准体系框架的设计,构建精准医疗数据融合标准体系(图 3)。国家标准的“三大板块”按照标准关注的对象不同分为三类:技术标准关注的是对产品或服务的技术要求,管理标准是对产品或服务处理程序的规范,工作标准关注的则是对相关工作人员的行为约束准则。
由图 3可知,精准医疗多源异构数据融合标准体系是建立在国家标准“三大板块”价值理念的基础之上,以此为共同基础标准,结合精准医疗多源异构数据融合的全周期,从不同层次的公共标准和主体模块标准构建了精准医疗多源异构数据融合的标准体系,规范数据融合行为,推动精准医疗关键技术的发展和突破。
3.4.1 层次维标准体系建设从专业标准到基础标准,本文将精准医疗的多源异构数据融合标准划分为其他标准、医疗机构标准、行业标准和国家标准,每个领域和范围都有适用的标准来规范精准医疗数据融合的行为,在实际标准应用中,需根据标准的实际需求和适用性程度,选择相应领域和范围的标准。
3.4.2 公共标准体系建设技术标准、管理标准和工作标准是对精准医疗数据融合技术、融合流程和相关人员的规范和约束,共同组成公共标准体系,作为精准医疗多源异构数据融合的基础标准,对数据的格式、存储方式和传输安全等日常工作进行规范,为主要模块流程提供基础保障。公共标准是精准医疗数据融合过程中应遵循的基础标准集合,因此处于标准体系的最上层,对主体模块流程起着保证和支撑的作用。主要包括针对数据融合的各项管理标准,如:数据融合的概念和术语,标准导则,各项数据的符号和标志,数值与数据、量和单位标准,以及数据融合所需设备设施用品的标准等,还有针对数据融合过程中经费收支管理的财务管理标准,以及数据的安全与应急标准和相关人员管理标准,形成精准医疗大数据的有效管理和标准化建设[13]。
3.4.3 时间-种类维标准体系建设主体模块流程标准体系主要依据标准体系框架中的时间维,是精准医疗数据融合的基本流程,种类维贯穿于时间维的每个阶段。
精准医疗数据融合的第一步是连接接口,从多个数据库中获取数据,这就需要对数据的存储形式和结构进行规范,方便数据的获取和理解。因此,应建立精准医疗数据存储的国家标准或行业标准,进行数据架构设计和数据规划[14],对数据的术语、存储格式、符号、标志、数据存储的仪器、设备、人员行为等环境因素和人为因素进行标准化管理,制定操作人员行为规范和数据操作规范,确保操作的规范性,避免数据噪声和缺失,保证数据质量,规范数据存储格式和结构,建立相匹配的数据字典,制定命名规则,保持数据存储格式的一致性和可理解性,为精准医疗数据抽取提供基础保证。
数据抽取标准是对所需数据进行调取、查看或使用的行为规范,是从国家、行业或者医疗机构层面对数据操作人员的抽取行为进行标准化规范,规定数据抽取的要求、频率、内容、手段和方法等,对操作人员行为进行标准化管理,选择合理的方法实现数据的标准化采集[15],保证数据的安全性、一致性、完整性,防止数据泄露和数据滥用。
数据转换标准是对操作的数据进行不同计算机间的转换,建立数据结构,为数据的使用提供基础性保障。海量的精准医疗数据存储在异构系统中,不同组织其数据存储的数据库和模式也是不一样的[16],没有统一的标准,结构化、半结构化和非结构化数据并存,不便于机器学习算法对数据的分析,故需将这些多源异构数据进行转换。数据转换标准是按照数据字段、记录和文件要求进行的编码规范,使抽取的数据在新的数据库中建立新的结构以满足数据分析的需求。
数据整合标准是对抽取的数据进行集成的标准规范,根据制定的数据体系框架,遵循统一的技术标准和规范,将各类型数据实体系统化地汇集成一个整体。对于不需要二次加工的数据可以采用数据组合的形式简单拼接而成,对于需要多方的数据共同存在才能够实现其价值的数据,可以采用数据整合的方式,运用数据库的关联规则操作,对多来源的数据进行整合。整合后的数据需要进行数据清洗,按照操作规范删除不合理、无意义的数据,填补缺失的数据,以保证数据集的完整性。
数据分析标准是对转换后的数据进行统计分析和知识发现过程中的行为规范。在数据分析过程中应保障数据的安全,防止数据泄露,所以,应建立数据分析人员行为规范,不得拷贝、篡改、泄露实验数据,不得将结果提前泄露给他人,不随意讨论、传播患者隐私。另一方面,还需建立数据使用规范,建立数据分析监控机制、篡改预警机制等,监控分析人员行为,保证数据在实验环境中得到正确的使用,保障数据安全和分析结果的正确性,以支持临床应用和管理者决策。
4 总结随着基因测序技术、医疗信息化和大数据技术的快速发展,我国精准医疗的发展面临着诸多机遇与挑战,其中多源异构数据的融合问题是实现精准医疗亟需突破的关键技术,而标准化是多源异构数据融合的重要手段。因此,本文对精准医疗多源异构数据特性和数据融合标准需求进行了分析,指出了我国精准医疗多源异构数据融合标准体系欠缺的问题。基于此,借鉴标准化系统工程方法论模型,结合精准医疗的多源异构数据融合特性和流程,从层次维、时间维和种类维三个角度构建了面向精准医疗的多源异构数据融合标准体系框架,进而构建了精准医疗数据融合标准体系,为标准制定人员提供了理论基础,为规范精准医疗多源异构数据的融合提供理论指导和实践参考。
作者声明本文无实际或潜在的利益冲突.
[1] |
GUNDERSON C C, ROWLAND M R, WRIGHT D L, et al. Initiation of a formalized precision medicine program in gynecologic oncology[J]. Gynecol Oncol, 2016, 141(1): 24-28. DOI:10.1016/j.ygyno.2016.02.024 |
[2] |
MIRNEZAMI R, NICHOLSON J, DARZI A. Preparing for precision medicine[J]. N Engl J Med, 2012, 366(6): 489-491. DOI:10.1056/NEJMp1114866 |
[3] |
何哲. 大数据时代, 改变了政府什么:兼论传统政府的适应与转型[J]. 电子政务, 2016(7): 72-80. |
[4] |
宁康, 陈挺. 生物医学大数据的现状与展望[J]. 科学通报, 2015, 60(Z1): 534-546. |
[5] |
薛付忠. 健康医疗大数据驱动的健康管理学理论方法体系[J]. 山东大学学报(医学版), 2017, 55(6): 1-29. |
[6] |
张继荣, 王向阳. 基于XML数据挖掘的Apriori算法的研究与改进[J]. 计算机测量与控制, 2016, 24(6): 178-180. |
[7] |
胡永利, 朴星霖, 孙艳丰, 等. 多源异构感知数据融合方法及其在目标定位跟踪中的应用[J]. 中国科学:信息科学, 2013, 43(10): 1288-1306. |
[8] |
侯新毅.我国竹子技术标准体系的构建研究[D].北京: 中国林业科学研究院木材工业研究所, 2010.
|
[9] |
孟凡芹. 大众化高等教育人才培养质量标准体系模型构建:基于标准化系统工程理论视角[J]. 高校教育管理, 2017, 11(2): 100-106. |
[10] |
张茹平, 孙炜, 张瑞秋, 等. 基于霍尔三维结构的成长型主题儿童家具设计模型研究[J]. 包装工程, 2018, 39(22): 200-204. |
[11] |
吕洁. 基于三维结构的南水北调工程技术标准体系框架研究[J]. 水利水电技术, 2014, 45(10): 123-126. DOI:10.3969/j.issn.1000-0860.2014.10.030 |
[12] |
WU P Y, CHENG C W, KADDI C D, et al. Omic and electronic health record big data analytics for precision medicine[J]. IEEE Trans Biomed Eng, 2017, 64(2): 263-273. DOI:10.1109/TBME.2016.2573285 |
[13] |
汪书怡, 刘宝. 基本医疗保险异地就医结算和管理的思考[J]. 中国卫生资源, 2018, 21(4): 346-350. DOI:10.3969/j.issn.1007-953X.2018.04.014 |
[14] |
夏天, 吴凡, 施燕, 等. 区域协同应用框架下的疾病预防控制数据标准制定方法研究[J]. 中国卫生资源, 2014, 17(5): 380-383. DOI:10.3969/j.issn.1007-953X.2014.05.025 |
[15] |
杨柔坚.浅谈如何做好大数据审计中的数据采集工作[N].中国审计报, 2019-05-15(6).
|
[16] |
何彤宇. 大数据时代网络学习环境的数据融合[J]. 现代教育技术, 2013, 23(12): 11-15. DOI:10.3969/j.issn.1009-8097.2013.12.002 |