知识图谱在特种医学研究中的应用
王丽丽, 冯逸飞, 李东方, 王温, 王伟忠
海军军医大学学报 ![]() ![]() |
![]() |
特种医学是研究在特殊环境条件下作业或从事其他活动的人群特有的卫生保障需求,以及解决实践中各种特殊医学问题的学科[1]。因该领域知识专业性强且缺乏系统性,导致知识数据异构分散、应用困难。知识图谱通过知识挖掘和抽取技术将现有的医学知识进行自动分类、提取和重构,实现医学体系内不同层面知识的可视化展示。本文综述了知识图谱在特种医学研究领域中的应用进展,通过关系网分析、知识关联等方法探讨特种医学各级学科领域的发展情况,旨在将分散的特种医学数据有效整合成统一标准知识库,解决特种医学数据应用困难问题。
1 特种医学概述 1.1 特种医学发展概况特种医学是国务院学位委员会、教育部于2011年设立的隶属于医学门类的一级学科,整合了基础医学、公共卫生与预防医学等相关学科中重点探究特殊环境条件下人体的生理及病理变化机制和规律的内容,主要目的是解决特殊环境下的各种医学问题[2]。该学科自成立以来为研究特殊环境对人体的影响等问题开辟了新的空间,也为相关疾病的预防、诊断与治疗奠定了新的基础。学科范围涵盖航空与航天医学、航海与潜水医学、放射与辐射医学、运动医学、职业病学和法医学等6个研究方向,从不同的角度进行临床和转化医学研究,共同支撑了特种医学研究体系。
1.2 特种医学知识现状、挑战和意义特种医学在英、美等国家的军事医学研究机构一直受到高度重视,他们对巩固和保障作业者的身心健康和提高特种作业能力开展了一系列的研究工作[3]。特种医学作为我国医学现代化发展过程中的重要组成部分,经历十几年的建设与发展,积累了庞大的研究成果和海量知识素材库。但由于大量既有知识以非结构化多模态数据形式保存,导致无论是基础研究还是应用研究都难以利用计算机实现大规模辅助智能分析和应用,限制了该领域科学研究与转化应用的效率和水平。
推进特种医学知识应用是服务国家战略的重大需求,将特种医学数据投入到更加专业、精细化的医疗建设中,利用医学前沿技术和设备开展基础和临床研究,将大幅提高国民健康水平,有利于医学科技综合发展,同时对于培养和吸引高水平科研人才、推动科技成果产业化具有重大引领作用。
2 知识图谱技术 2.1 知识图谱概述知识图谱是一种高级信息表达和知识融入工具,由语义网发展而来。它用图模型结构表示知识和实体之间的关联关系,为人工智能提供底层支撑,广泛应用于智能辅助问答、临床决策诊断、语义搜索及可解释性人工智能等方面[4]。
2.2 知识图谱在医学领域的应用现状人工智能大数据时代迎来了科学技术发展高潮,知识图谱逐渐融合嵌入技术、深度学习、知识挖掘算法等,应用范围不断扩大。借助CiteSpace软件,基于中国知网检索2012-2023年发表的医学领域知识图谱研究性论文,勾选“Keyword”节点链接稀疏的知识进行数据预处理,最终筛选出中文文献479篇进行可视化分析,其关键词共现图谱如图 1所示。结果表明医学领域知识图谱技术应用可行性极高,已然成为21世纪的研究热点。
![]() |
图 1 2012-2023年发表的479篇医学领域知识图谱相关中文研究性文献关键词共现图谱 |
近年来医学领域的知识图谱构建案例层出不穷。例如,2017年Rotmensch等[5]通过直接从医疗记录中提取基本概念自动化地构建了高质量的健康知识图谱,大幅提高了自我诊断检查器应用的可行性;2020年林燕榕等[6]对肾病专科电子病历进行知识提取,构建了完备的肾病医学知识图谱以辅助医学诊断,提高了肾病专科临床决策能力;2021年魏琦[7]利用图像特征推理计算未知疾病,构建了医疗图像知识图谱,实现了图像的多标签分类和未知疾病的检测。有效利用知识图谱对医学数据进行提取与重构,有助于解决医学知识应用困难等问题。
2.3 医学领域知识图谱构建的关键技术医学知识图谱构建一般包括数据获取、知识抽取、知识融合、知识加工和知识应用5个部分,整体流程如图 2所示。
![]() |
图 2 医学知识图谱构建流程图 |
(1)数据获取:数据作为表示客观事物的未经加工的原始素材,是一切功能实现的基础。数据源一般分为3类:结构化数据、半结构化数据、非结构化数据。医疗数据可以通过多个渠道获取,如学术数据库(PubMed、EMBASE、中国知网、维普数据库等)、开放百科类数据库(维基百科、百度百科等)、大型医疗知识库(Freebase、MedlinePlus等),还可使用爬虫技术从垂直医疗网站中获取。
(2)知识抽取:研究如何从海量异构数据源中抽取知识要素是构建大规模知识图谱的前提,一般包括实体抽取、关系抽取、属性抽取3种类型。某些情况下,实体的属性可以看作是名词性的关系,故属性抽取也是关系抽取的一种特例。表 1、2总结了知识抽取阶段的核心方法。
![]() |
表 1 实体抽取核心方法 |
![]() |
表 2 关系抽取核心方法 |
(3)知识融合:该阶段目的是在同一框架下对不同来源的知识进行规范整合、歧义消除、冗余/错误概念剔除,以保证形成高质量医学知识库。知识融合方法分为本体匹配、实体对齐、实体链接3种类型。本体匹配的目的是链接3个不同本体概念实现映射关系。东南大学研究团队提出的BioOntGCN模型,利用图神经网络学习和传播本体中节点相似特征,实现大规模相似本体对的嵌入匹配[12]。实体对齐是避免多维异构数据产生歧义的有效手段。Zhang等[13]提出基于语义和结构嵌入的相关性预测方法,将外部术语与形式实体一起输入预训练模型,同时使用图卷积网络获取实体在术语库中的同义词及其下位词结构进行模型嵌入,解决电子病历的实体对齐任务。实体链接一般用于识别不同知识图谱间的相同实体,可有效消除歧义,避免资源浪费。Liu等[14]首次尝试跨语言生物医学实体链接,提出了一个具有10种语言的综合评估基准,有效提升了编码模型的跨语言能力。由此可见,研究知识融合技术方法能够有力地缩短医学领域知识图谱的构建周期,提高知识图谱构建效率。
(4)知识加工:该阶段统一对知识进行管理,评估融合后的知识,将合格部分存入知识库;然后结合第三方数据库发掘并推断缺失隐藏的医学新知识,实现自动更新旧知识,若新融入的知识数据为符合要求的结构化数据则无须再次进行知识融合;最后借助图数据库进行存储,保证医学知识之间的逻辑关系更好地表达。传统的方法是基于规则的推理,Hidalgo等[15]采集了3 000多万例老年患者的身体状况数据构建疾病表型知识图谱,通过观察研究疾病之间的级联扩散现象推理图谱网络位置附近发展新的疾病,精准降低了患者同时患多种高度关联性疾病的概率。目前基于神经网络的知识推理具有更好的学习能力和泛化能力,Nian等[16]利用Node2vec方法对神经退行性疾病与饮食的关系进行数据驱动,挖掘潜在关系。
(5)知识应用:将所构建的图谱使用建模技术链接嵌入到具体实际应用中,用来解决具体问题,初步实现知识图谱的实用价值,推动人工智能广泛且多样化应用落地。
综上可见,学术界对医学知识图谱的研究取得了很大进展,方法趋于成熟,在图谱构建关键技术的各个阶段持续探索创新方式,推动互联网技术助力医学智能化。
3 知识图谱在特种医学各领域的应用知识图谱将特种医学不同学科门类之间多源异构的信息形成聚合的知识,构建了一个完整的、有迹可循的特种医学知识库,可作为我国特种医学数据应用困难问题的解决手段。
3.1 航空航天医学航空航天医学研究人在大气层或外层空间飞行时外界环境因素(如低压、缺氧、宇宙辐射等)和飞行因素(如超重、失重等)对人体生理、心理功能的影响,其与数学、物理学、力学和医学等学科相互渗透,已逐渐形成一套完整的航空航天医学组织保障体系。太空手术需要在专家的远程指导下提高术者的技能,借助知识图谱技术研究集成多自由度系统的医疗机器人能够帮助评估手术效果和模拟真实场景进行技术临床验证测试等[17]。第21届伊朗航空航天医学国际会议概述了基于人工智能技术的健康监测相关工作[18],提出人工智能技术与健康管理技术融合将是未来航天器故障预警工作的发展方向。同时,知识图谱作为人工智能的底层数据支撑技术,如能用于辅助处理航天器多源高维数据、在轨样本数据等,配合开展智能故障预警、故障诊断、寿命评估等健康管理,提高故障信息的利用率,将成为航天技术健康管理智能化发展的新起点[19]。
3.2 航海与潜水医学航海医学与潜水医学是研究在航海或潜水条件下人体生理、心理和病理变化,以及相关疾病的预防、诊断和救治方法的综合性学科[20]。杜孙达等[21]利用知识图谱呈现了Web of Science核心合集数据库中1998-2018年“潜水”主题文献数量,直观地反映了该领域研究进展。洪海蓝等[22]设计了一个基于知识图谱的细粒度海洋中药智能问答分类系统,助力海洋新药研发。知识图谱是推动航海与潜水医学高水平发展的基础手段,有助于实现医学复杂信息的智能化处理,具有光明的应用前景。
3.3 放射与辐射医学放射与辐射医学主要研究电离辐射生物效应对人体损伤的病理机制、诊治及防护[23]。自1895年伦琴发现X射线以来,放射医学经历了110余年的发展历程,所涉及的多个学科领域相互渗透。为了减轻医师的工作量,自动生成放射学报告一直是计算机辅助诊断研究的热点。基于放射学图像中阳性疾病关键词准确性评估及其相关属性匹配问题,知识图谱技术可以对每个疾病类型进行专门的特征学习并针对它们之间的关系进行建模,生成的图形特征可用于放射学图像分类和报告生成,极大地提高了医学图像报告的质量[24]。
3.4 运动医学领域运动医学是医学与体育科学相结合的一门综合性应用学科,研究与体育运动相关的医学问题并监督、指导、防治运动伤病[25]。通过检索中国知网发现,近10年我国运动医学研究类型多为文献综述或计量研究,鲜有知识结构信息的全景直观展示。陈咸等[26]将运动医学样本数据导入CiteSpace软件,形象地展示了运动医学学科的结构与发展现状。熊腾辉等[27]针对中国知网青少年运动损伤相关文献绘制知识图谱进行可视化分析,旨在揭示我国青少年运动损伤研究的发展进程,这为有效防治青少年运动损伤问题奠定了理论基础。知识图谱的应用有利于实现体育运动和医学的相互配合,推动全民健康事业的发展。
3.5 职业病学职业病学是研究如何预防特殊工作条件(如接触粉尘、有毒有害物质等)引起的健康问题,以促进职业工人保持高水平的身体素质、精神状态、社会福利的学科[28]。英国科学家Wolffe等[29]注意到严格的、扁平的数据表模式并不适合环境卫生数据表高度链接、异构复杂的性质,而知识图谱为系统映射环境提供了一个灵活、无模式和可扩展的模型,可实现职业系统制图方法学的长期目标,简化获取环境卫生学证据库的途径,利于制定化学品和环境卫生重大决策。任国友等[30]集中研究传统职业病的危险因素,构建了职业卫生学科研究作者的知识图谱(1990-2018年),致力于改善职业卫生环境现状,推动职业病学研究。随着市场经济高速发展,职业病的危害日益突出,应用知识图谱标准化数据有利于了解职业卫生学科发展的主流趋势和发展动因,推动我国职业卫生工程技术水平的提升。
3.6 法医学法医学是运用各种医学知识,解决立法、侦查、审判实践中涉及的医学问题的一门转化应用学科[31]。受理与伤害、死亡等有关的医学问题涉及的学科领域较多,知识信息量大。通过研究DNA指纹知识图谱的计算机识别技术,建立了DNA图谱数据库,推动了个体识别鉴定任务的极大成功。另外,将法医学摄影暗示创伤条件的图像投入知识图谱,能够确保法医鉴定的准确性和全面性[32]。知识图谱配合司法鉴定辅助调查死亡原因有利于维系人类健康和促进科学进步。
4 知识图谱在寒区医学中的应用寒区医学是研究处理人体在寒区环境下如何保持健康状态,以及预防、治疗寒区特殊环境下心理和生理疾病的综合性分支学科[33]。寒区医学被视为特种医学子学科,具有特殊性、专业性和复杂性等特征,同时面临一些特殊的挑战和应用性难题,如寒区复杂医学数据结构化程度低、医疗基础设施和资源有限、人员心理健康及适应性问题较多等。知识图谱在医学信息管理、疾病预防和治疗决策支持等方面已经取得较为成功的技术应用,如果能够将相应方法技术融入寒区医学应用中,将有利于在一定程度上解决寒区医学领域实际应用困难问题。
4.1 寒区医疗资源管理以寒区医学为关键词,发表时间限定为2010-2020年,在外文及中文数据库中进行多字段交替检索及统计分析,原始寒区医学文献有1 716篇,数据资源专业性高且较为分散,缺乏有效的统计管理。华东师范大学研究团队提出了基于大规模医疗语料库训练的预训练模型SMedBERT[34]。该模型是利用知识图谱结构化语义考虑近邻跨度和全局上下文知识之间的交互,应用该模型结构化组织寒区医学数据进行寒区医疗资源管理应用,可使寒区医疗知识整合难度大、准确率低、延展性差等问题得到有效改善。
4.2 疾病预测和诊断寒区气候和环境条件与一般地区有很大不同,暴露于寒冷地区容易造成人体潜伏重大未知疾病的危机,严重影响工作人员的生命安全,而且恶劣环境条件也导致医疗设施和资源长期匮乏。因此,疾病监测和有效诊断对寒区医学发展极其重要。通过构建临床患者病例知识图谱实现对人体生理状况变化的实时监控,从临床数据中发现知识,辅助临床决策和提出个体化治疗建议,从而有效缩短疾病诊断和治疗时间。知识图谱应用于寒区疾病预测和诊治过程能够降低寒区患者救治成本,提高极端寒冷环境下患者救治率,从而改善寒区医学应用困难的现状。
4.3 健康教育和宣传寒区生活及饮食习惯与其他地区有所不同,同时相关寒区领域高质量公开资源较少,影响该领域健康知识的普及,导致公众对于寒区健康问题认识欠缺,个体进入寒区时容易出现生理适应性困难等问题。构建寒区医学知识图谱并融入个人健康状况、环境风险因子、作息生活方式等实体因素,可帮助提供个体化教育和宣传建议,提高人们的健康意识,减少意外伤害,加强环境应急能力,促进健康行为的养成。
5 小结本文回顾了特种医学知识图谱的研究进展,阐述了医学领域知识图谱构建关键技术及方法,总结了当前特种医学各学科领域知识图谱的初步应用情况,并对目前寒区医学研究存在的应用性难题提出了针对性见解。随着深度学习大模型技术赋能知识图谱领域,更多医学知识图谱的潜在研究方向及其与知识之间的潜在关系被挖掘出来。这有望促进特种医学领域全面深入的数据整合与分析,提高诊断和治疗的精准性,进一步解决特种医学的潜在应用性难题,助力拓展特种医学研究的深度和广度。
[1] |
杨柳, 张阵阵. 国外海军特种医学网络资源分布检索方法[J]. 中华医学图书情报杂志, 2015, 24(6): 37-41. DOI:10.3969/j.issn.1671-3982.2015.06.010 |
[2] |
蔡懿灵, 朱仁心, 祁瑞瑞, 等. 海军战略转型背景下海军特种医学课程体系建设及教学模式改革与实践[J]. 中国高等医学教育, 2022(2): 144-145. DOI:10.3969/j.issn.1002-1701.2022.02.076 |
[3] |
HUMPHREYS B L, LINDBERG D A B, SCHOOLMAN H M, et al. The unified medical language system: an informatics research collaboration[J]. J Am Med Inform Assoc, 1998, 5(1): 1-11. DOI:10.1136/jamia.1998.0050001 |
[4] |
GUARINO N. Formal ontology, conceptual analysis and knowledge representation[J]. Int J Hum Comput Stud, 1995, 43(5/6): 625-640. DOI:10.1006/ijhc.1995.1066 |
[5] |
ROTMENSCH M, HALPERN Y, TLIMAT A, et al. Learning a health knowledge graph from electronic medical records[J]. Sci Rep, 2017, 7: 5994. DOI:10.1038/s41598-017-05778-z |
[6] |
林燕榕, 张怡, 刘迪, 等. 基于肾病专科电子病历构建肾病医学知识图谱[J]. 西南大学学报(自然科学版), 2020, 42(11): 52-58. DOI:10.13718/j.cnki.xdzk.2020.11.006 |
[7] |
魏琦. 基于知识图谱的医疗图像多标签分类及未知疾病检测[D]. 昆明: 云南大学, 2021.
|
[8] |
CODEN A, SAVOVA G, SOMINSKY I, et al. Automatically extracting cancer disease characteristics from pathology reports into a disease knowledge representation model[J]. J Biomed Inform, 2009, 42(5): 937-949. DOI:10.1016/j.jbi.2008.12.005 |
[9] |
SAVOVA G K, MASANZ J J, OGREN P V, et al. Mayo clinical text analysis and knowledge extraction system (cTAKES): architecture, component evaluation and applications[J]. J Am Med Inform Assoc, 2010, 17(5): 507-513. DOI:10.1136/jamia.2009.001560 |
[10] |
ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//Proceedings of ACL. ACL, 2002: 473-480. DOI: 10.3115/1073083.1073163.
|
[11] |
LUO L, YANG Z, YANG P, et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): 1381-1388. DOI:10.1093/bioinformatics/btx761 |
[12] |
WANG P, ZOU S, LIU J, et al. Matching biomedical ontologies with GCN-based feature propagation[J]. Math Biosci Eng, 2022, 19(8): 8479-8504. DOI:10.3934/mbe.2022394 |
[13] |
ZHANG J, ZHANG Z, ZHANG H, et al. From electronic health records to terminology base: a novel knowledge base enrichment approach[J]. J Biomed Inform, 2021, 113: 103628. DOI:10.1016/j.jbi.2020.103628 |
[14] |
LIU F, VULIĆ I, KORHONEN A, et al. Learning domain-specialised representations for cross-lingual biomedical entity linking[J/OL]. arXiv: 2105.14398 (2021-05-30)[2023-06-09]. https://doi.org/10.48550/arXiv.2105.14398.
|
[15] |
HIDALGO C A, BLUMM N, BARABÁSI A L, et al. A dynamic network approach for the study of human phenotypes[J]. PLoS Comput Biol, 2009, 5(4): e1000353. DOI:10.1371/journal.pcbi.1000353 |
[16] |
NIAN Y, DU J, BU L, et al. Knowledge graph-based neurodegenerative diseases and diet relationship discovery[J/OL]. arXiv: 2109.06123 (2021-10-21)[2023-06-09]. https://doi.org/10.48550/arXiv.2109.06123.
|
[17] |
CORNEJO J, CORNEJO-AGUILAR J A, SEBASTIAN R, et al. Mechanical design of a novel surgical laparoscopic simulator for telemedicine assistance and physician training during aerospace applications[C]//2021 IEEE 3rd Eurasia Conference on Biomedical Engineering, Healthcare and Sustainability (ECBIOS). IEEE, 2021: 53-56. DOI: 10.1109/ECBIOS51820.2021.9510753.
|
[18] |
吴飞飞, 周晴霖, 王志翔. 2022第十一届中国航空医疗救援国际会议综述[J]. 中华航空航天医学杂志, 2023, 34(1): 59-62. DOI:10.3760/cma.j.cn113854-20230215-00013 |
[19] |
SANISALES S, AVAL E R. Artificial intelligence techniques for spacecraft health monitoring system—a survey[C]//The 21st International Conference of Iranian Aerospace Society. Iranian Aerospace Society, 2023: 1-7.
|
[20] |
BEARDSLEE L A, CASPER E T, LAWSON B D. Submarine medicine: an overview of the unique challenges, medical concerns, and gaps[J]. Undersea Hyperb Med, 2021, 263-278. DOI:10.22462/05.06.2021.7 |
[21] |
杜孙达, 黄鹏程, 鲁仕忠. 近20年国外休闲潜水领域研究现状及热点: 基于知识图谱的可视化分析[J]. 岭南师范学院学报, 2019, 40(4): 43-50. DOI:10.3969/j.issn.1006-4702.2019.04.007 |
[22] |
洪海蓝, 李文林, 杨涛, 等. 基于知识图谱的海洋中药智能问答系统的设计与实现[J]. 世界科学技术-中医药现代化, 2023, 25(6): 1935-1941. DOI:10.11842/wst.20220514002 |
[23] |
陈延群, 梁庆模, 孙建湘. 《医学放射生物学》课程教学新模式探索[J]. 亚太教育, 2015(13): 61-62. DOI:10.16550/j.cnki.2095-9214.2015.13.017 |
[24] |
ZHANG Y, WANG X, XU Z, et al. When radiology report generation meets knowledge graph[J]. Proc AAAI Conf Artif Intell, 2020, 34(7): 12910-12917. DOI:10.1609/aaai.v34i07.6989 |
[25] |
ORCHARD J W. Sport and exercise medicine: leading the race towards net zero[J]. Br J Sports Med, 2023, 57(7): 386-387. DOI:10.1136/bjsports-2022-106177 |
[26] |
陈咸, 邓士琳. 我国运动损伤研究的知识图谱分析[J]. 哈尔滨体育学院学报, 2018, 36(5): 81-88. DOI:10.3969/j.issn.1008-2808.2018.05.014 |
[27] |
熊腾辉, 吕长生. 基于知识图谱的我国青少年运动损伤研究可视化分析[C]//第二届中国青少年体能高峰论坛墙报交流论文集. 中国体育科学学会体能训练分会, 2022: 34-35.
|
[28] |
JURISIC V, LEDDA C, MUCCI N, et al. Editorial: occupational medicine: disease risk factors and health promotion[J]. Front Public Heath, 2022, 9: 819545. DOI:10.3389/fpubh.2021.819545 |
[29] |
WOLFFE T A M, VIDLER J, HALSALL C, et al. A survey of systematic evidence mapping practice and the case for knowledge graphs in environmental health and toxicology[J]. Toxicol Sci, 2020, 175(1): 35-49. DOI:10.1093/toxsci/kfaa025 |
[30] |
任国友, 戴彩岩, 薛怡文, 等. 基于CiteSpace的职业卫生研究知识图谱分析[J]. 华北科技学院学报, 2019, 16(6): 105-109. DOI:10.3969/j.issn.1672-7169.2019.06.019 |
[31] |
乔晓孟, 曾昭书, 郑旭东, 等. 本科生法医学教学的调查研究及启示[J]. 基础医学教育, 2023, 25(2): 119-122. DOI:10.13754/j.issn2095-1450.2023.02.06 |
[32] |
EDIRISINGHE P A S, KITULWATTE I D G, NADEERA D R. Knowledge, attitude and practice regarding the use of digital photographs in the examination of the dead and living among doctors practicing forensic medicine in Sri Lanka[J]. J Forensic Leg Med, 2020, 73: 101995. DOI:10.1016/j.jflm.2020.101995 |
[33] |
孙景海. 寒区医学研究现状与发展设想[J]. 解放军医学杂志, 2013, 38(8): 611-614. |
[34] |
ZHANG T, CAI Z, WANG C, et al. SMedBERT: a knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J/OL]. arXiv: 2108.08983 (2021-08-20)[2023-06-09]. https://doi.org/10.48550/arXiv.2108.08983.
|