学习是人类具有的一种重要智能行为,而目前人工智能的发展也使计算机具备了这种“学习”的能力,其中机器学习(machine learning)就是指“计算机利用经验自动改善系统自身性能的行为”[1]。随着医疗大数据及“人工智能+医疗”的整体发展,机器学习在公共卫生中的应用也越来越广,在医学影像、临床决策支持、语音识别、药物挖掘、健康管理、病理学等众多领域取得突破性进展[2],对提高医疗系统诊断准确性、安全性和可靠性有着重要帮助。本文就机器学习的概念、发展、适用性以及在医疗和公共卫生领域的应用作以综述。现将结果报告如下。
1 机器学习的概念和发展 1.1 概念机器学习是一门科学学科,主要研究计算机如何从数据中学习,它是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策[3-4]。Deo[5]认为机器学习是一种能自动构建出模型用来处理一些复杂关系的技术,它使用计算机模拟人类学习行为,通过学习现有知识,获取新经验与新知识,不断改善性能并实现自身完善。Cleophas[6]认为机器学习是通过计算机处理训练数据获得的预测知识,尤其是现代的计算密集型方法(如因子分析、聚类分析和判别分析)越来越多地用于这一目的。它模仿了人脑的多分层结构、神经元的连接交互、分布式稀疏存储和表征、信息的逐层分析处理机制以及自适应、自学习的强大并行信息处理能力,在目标识别、语音识别、图像识别和自然语言处理等方面取得了诸多创新性成果。
1.2 发展机器学习起源于人工智能,发展于深度学习。第一阶段的起点是在20世纪40 — 50年代,随着神经网络(neural network)算法的出现和成熟,机器学习理论开始萌芽,如1949年Hebb基于神经心理提出的学习理论(Hebbian learning theory),1950年著名的图灵测试(The Turing test)以及1957年罗森布拉特建立的感知机(perceptron)等,为机器学习的出现奠定了理论和算法基础;第二阶段的起点在1980年,尽管1952年Samuel就提出了机器学习的概念,但真正作为一门独立的学科要从1980年算起,在这一年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研究在全世界兴起;第三阶段的起点是在2006年,机器学习领域的泰斗Hinton提出了深度学习(deep learning)算法,通过“逐层初始化”有效降低了神经网络在训练上的难度,极大地提高了神经网络的运算能力[7],遂掀起了机器学习在学界和业界发展的浪潮。
2 机器学习的流程及适用性在机器学习的整体流程中(图1),基础是“样本”,而关键在于“训练”(模型学习)。机器学习区别于普通程序的一个重要特征就是需要样本数据,从样本数据中通过“学习”得到知识和规律,然后用于实际的推断和决策。而在公共卫生的相关研究中恰好存在着大量的样本 —— 病例,如流感、结核病、艾滋病等流行病及传染病的病例数据库等,既能构成文本信息集又能构建病理特征图片库,这使得机器学习在公共卫生研究中有了最为基础的条件,而且,随着对患者疾病诊断过程的不断进行,数据样本也会不断地累积丰富,反过来亦能提升机器学习的“成绩”。机器学习的关键步骤是“训练”,在有了样本之后,“训练”成为技术难点,“训练”的实质是让计算机自行决定如何从“特征”映射到“标签”,从而完成泛化模型的构建,这与传统编程给出固定的规则有较大区别。对于医疗和公共卫生的相关研究来说,构建一个优质的特征工程是成功应用机器学习方法最重要的一部分,特征的质量决定模型的好坏。以缺血性脑卒的相关研究为例[8],研究者将采集自中国国家卒中登记项目数据库(China National Stroke Registry, CNSR)中12 415例缺血性卒中患者的总数据集,按8 : 2随机分为训练集和测试集,训练集中包括到院时意识状态、痴呆史、周围血管病史等67个特征因素,研究者进行3次重复实验进而建立死亡预测模型,结果显示机器学习相比于传统模型更适用于缺血性卒中患者出院1年后死亡的预测。
3 研究热点与应用方向 3.1 研究热点
通过对全球最大、覆盖学科最多的综合性学术信息资源搜索引擎Web of Science进行检索,利用Citespace工具对2000年以来的2014篇相关文献进行可视化分析,进而识别机器学习在医疗和公共卫生中的研究热点,结果显示,当前的研究热点集中在治疗评价、住院死亡率、药剂化学性质、认知行为疗法、链路预测问题、全身骨闪烁图、早期诊断、多标签分类、严重性预测器、转移性结直肠癌、深度学习体系结构、资源分配机制、代谢组学研究和基因组挖掘等方面。
3.2 应用方向通过对文献的进一步归纳整理,得出机器学习在医疗和公共卫生中的5个研究方向:
(1)辅助诊疗:
通过机器学习进行辅助诊疗可以提供高质高效的分析判断,提升诊断准确率并减少医护人员在应对常规性高重复工作中的耗时,使相关人员有足够精力去完成更多创新性工作。尽管需要有足够的知识储备,但医生这一职业并不完全是脑力工作,在面对源源不断的病患时,疾病诊断更像是一种劳动密集型工作,而机器学习则能够大大提升医疗诊断的效率。例如对致盲性视网膜疾病患者的诊断,通过机器学习训练的神经网络,对光学相关的断层扫描图像数据集进行判断,结果与人类专家性能相当[9]。机器学习能够依据病理图像进行辅助诊疗是其显著优势之一,对于号称“人类生命终结者”的癌症,机器学习也能够给予帮助,例如在皮肤癌的诊断中,传统的诊疗依靠肉眼诊断,从最初的临床筛查开始,随后依病情进行皮肤镜分析、活检和组织病理学检查,但对皮肤损伤进行自动分类是一项具有挑战性的任务,需要有丰富的临床经验才能区分恶性黑色素瘤与良性痣,但通过机器学习将皮肤癌分类,其能力水平与优秀的皮肤科医生相当,更加难能可贵的是通过移动设备可以潜在地扩大皮肤科医生门诊以外的服务范围,提供低成本的诊断服务[10],从而给基层医疗机构“赋能”,用人工智能给基层医生赋予“院士级看病的本事”[11]。
(2)监测和预防疾病
机器学习在监测和预防疾病中扮演着“predictor”(预测器)的角色,它从数据中挖掘规律,准确率较高,从而降低预测的不稳定性风险,替代注重因果关系的传统逻辑回归预测方法[12]。应用上,既可以针对个体病患进行疾病监测,也可以对群发性、突发性的流行疾病进行预警。例如,在预测癌症方面,通过机器学习训练的模型,研究人员能够查明哪些指标对癌症患病有重要影响,检测到原有方法难以识别的模式,从而提高人们对癌症发病过程的认识,成为个体预测医学发展趋势的一部分[13];在流行病学方面,通过机器学习对空气污染相关的流行病进行数据挖掘,发现地理位置是影响流行病的一个重要因素。深度学习和地理空间模式挖掘是两个新兴的数据挖掘领域,未来在空气污染流行病学的应用方面具有巨大潜力[14]。此外,结合遥感卫星、网络、社交媒体等多源数据,机器学习能够用于监测和预报世界范围内的流行病爆发,例如,基于互联网的报告系统ProMED-mail致力于在全球范围快速传播有关传染病爆发和影响人类健康的毒素急性暴露信息,目前有至少185个国家/地区超过70000名的订阅者,有效促进了国际传染病界间的沟通[15]。HealthMap利用在线非正式渠道进行疾病暴发监测,对新出现的公共卫生威胁进行实时监控,并通过网站和手机端向当地卫生部门、政府和国际旅行者等多种受众提供新发传染病的实时情报,促进提早发现全球公共卫生威胁[16]。
(3)机器人辅助手术
机器人辅助手术(robot assisted survey, RAS)是指通过空间导航控制技术,将外科医师、辅助诊疗系统和机器人三者紧密相连完成的手术。自1985年第一篇有关手术机器人应用的报告以来,以美国加利福尼亚州桑尼维尔的达芬奇手术系统(da Vinci Surgical System)为代表的手术机器人获得了蓬勃发展[17]。而通过机器学习可以增强机器人辅助手术的可靠性与适应性能力,自动快速地完成手术任务,例如,完成简单的缝合以及打结等任务[18],进一步配合三维高清视野、可转腕手术器械和直觉式动作控制完成复杂的微创手术,保证精准定位误差不足1 mm,对于一些切口要求精确度非常高的手术实用性很高。机器人通过对医疗大师手术技巧的学习不断完善自我,在接近困难时选择适当的(最佳)手术动作并避开风险易发区[19],在要求极端精确的手术,如神经外科的手术中发挥重要作用[20]。因此,手术机器人在全球有着巨大的潜力和市场,预计到2025年,全球外科机器人市场预计将达到125.9亿美元,在普通外科、妇科、泌尿科、整形外科、介入心脏病学和神经病学等领域发挥更为重要的作用[21]。
(4)药物警戒与新药研发
药物警戒(pharmacovigilance, PhV)也称药物安全监测,是指与检测、评估、理解和预防不良反应或任何其它药物问题有关的科学和活动。药物警戒从预先批准阶段到批准后的临床试验,相关监管机构都会强制要求在常规使用期间收集产品的安全性数据,监测不良药物事件(adverse drug events, ADEs),传统的方法依赖于各类机构收集病例报告中对临床过程的回顾,但他们在患者的数量和特征、持续时间和收集的数据类型方面受到限制,而通过机器学习建立的“药物——结果对”可用于优先排序并确定需要进一步关注的风险信号,进一步识别高阶或多元关联的药物相互作用等安全现象,从而将数据转化为有意义的知识以告知患者药物的安全性[22]。而在新药研发过程中,传统的药物研发需要进行长时间和大量的模拟测试,使得新药的研发成本飙高。而通过机器学习开发的虚拟筛选技术,分别显示药物与目标之间的关系,通过发现靶点——筛选药物的便捷流程取代传统的高通量筛选[23],常用于基于配体的药物设计(ligand-based drug design, LBDD)和基于结构的药物设计(structure-based drug design, SBDD)研究、相似性搜索、生物活性分类和预测模型的构建、二级结构的预测、结合位点对接和虚拟筛选等[24],英国皇家学会甚至指出,生物药物制造中使用机器学习进行优化的时机已经成熟,来自实验和生产过程中的数据可以帮助制药企业减少药物生产的时间投入,从而降低成本并提高药物产品的重现性[25]。
(5)医疗体系质量管理
质量管理是现代化医疗体系的重要组成部分,通过机器学习和自然语言处理的高级算法,可以帮助管理人员更好地评价、监测和改进医疗卫生系统的质量。美国卫生健康研究与质量机构(Agency for Healthcare Research and Quality, AHRQ)认为至少有3类不同的质量管理,即医疗体系结构的质量管理、医疗流程的质量管理和医疗结果的质量管理,机器学习有助于优化这三方面的质量管理,为医护人员设定明确的任务目标并通过绩效考核来确定改进的方向,从而减少了患者无人医治或医疗资源空闲的情况[26]。进一步,可以利用电子健康记录(electronic health record, EHR)历史数据训练形成“智能医生”(artificial intelligence doctor, AI doctor)来预测患者下次就诊的时间[27],另将相关历史时序数值信息输入机器学习系统进行计算,建立预测模型,可以预测近期门诊量以便提早做好相关工作的准备[28]。此外,对于医疗成本管理,美国的Analytics MD公司通过大规模的机器学习处理,对大数据进行系统自动分析、监测和预估,分析出病房或手术室不足等问题的原因,并给临床医生提供最合理的建议,帮助他们在合适的时间内给患者提供最适合的治疗和服务,优化了医院资源配置的同时为患者节约就医成本[29]。
4 总结和展望机器学习在医疗和公共卫生相关研究中具有较强的适用性和十分广阔的应用前景,在机器学习模型的帮助下,不仅能够提升个体诊疗的可靠性和精确度、提升群发性突发性流行病的预测能力、提升高难度手术的成功率、加快新药研发的步伐、提升医疗体系的管理质量,全方位实现“健康中国”的战略目标,还可以通过“机器学习 + 远程诊疗”,为“一带一路”所经过基础医疗资源薄弱的第三世界国家/地区提供医疗服务,将医疗成果惠及世界人民的同时,助力中国全球战略布局的实现。
在未来,随着尖端科技不断发展,利用基因组图谱技术将能够揭示人类癌症基因组数据[30],使机器学习在帮助人类攻克癌症的道路上更进一步。对于惠及亿万百姓的“大健康”产业,通过聊天机器人和医疗健康可穿戴设备的结合,整合临床、医疗和公共卫生电子系统,使供应商、消费者和其他利益相关者能够更好地协调整个社区的医护工作,迎接人类健康2.0时代的到来[31]。尽管利用机器学习和大数据的力量有助于医疗和公共卫生的整体发展,但医疗大数据治理仍是目前亟待解决的问题之一,打破“数据孤岛”实现医疗的共享共治,仍需要各级政府和相关部门付出巨大努力。
[1] | Mitchell TM. Machine learning[M]. McGraw Hill, 1997. |
[2] | 互联网医疗健康产业联盟. 2018年医疗人工智能技术与应用白皮书[R]. 2018. |
[3] | Lip GY, Nieuwlaat R, Pisters R, et al. Refining clinical risk stratification for predicting stroke and thromboembolism in atrial fibrillation using a novel risk factor-based approach: the euro heart survey on atrial fibrillation[J]. Chest, 2010, 137(2): 263–272. DOI:10.1378/chest.09-1584 |
[4] | O'Mahony C, Jichi F, Pavlou M, et al. A novel clinical risk prediction model for sudden cardiac death in hypertrophic cardiomyopathy (HCM risk-SCD)[J]. Eur Heart J, 2014, 35(30): 2010–2020. DOI:10.1093/eurheartj/eht439 |
[5] | Deo RC. Machine learning in medicine[J]. Circulation, 2015, 132(20): 1920–1921. DOI:10.1161/CIRCULATIONAHA.115.001593 |
[6] | Cleophas TJ, Zwinderman AH. Machine learning in medicine[M]. Springer, 2013: 9. |
[7] | Hinton G E, Salakhutdinov RR. Dimensionality of data with neural networks[J]. Science, 2006, 313(28): 504–507. |
[8] | 饶夫阳, 宋艳平, 吕芯芮, 等. 基于机器学习模型缺血性脑卒中1年死亡预测效果评价[J]. 中国公共卫生, 2019(5): 1–4. |
[9] | Kermany DS, Goldbaum M, Cai W, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning[J]. Cell, 2018, 172(5): 1122–1131. DOI:10.1016/j.cell.2018.02.010 |
[10] | Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(1): 115–118. |
[11] | 陈建伟. 人工智能与医疗深度融合[J]. 中国卫生, 2017(9): 102–103. |
[12] | Robins JM. Data, design, and background knowledge in etiologic inference[J]. Epidemiology, 2001, 12(3): 313–320. DOI:10.1097/00001648-200105000-00011 |
[13] | Cruz JA, Wishart DS. Applications of machine kearning in cancer prediction and prognosis[J]. Cancer Informatics, 2007, 2: 59–77. |
[14] | Bellinger C, Mohomed Jabbar MS, Zaïane O, et al. A systematic review of data mining and machine learning for air pollution epidemiology[J]. BMC Public Health, 2017, 17(1): 907–925. DOI:10.1186/s12889-017-4914-3 |
[15] | Promed. About us[EB/OL]. [2019 – 07 – 01]. http://www.promedmail.org/, |
[16] | Healthymap. About HealthyMap[EB/OL]. [2019 – 07 – 01]. https://www.healthmap.org/about/. |
[17] | Gomes P. Surgical robotics: reviewing the past, analysing the present, imagining the future[J]. Robotics and Computer-Integrated Manufacturing, 2011, 27(2): 261–266. DOI:10.1016/j.rcim.2010.06.009 |
[18] | Esteva A, Robicquet A, Ramsundar B, et al. A guide to deep learning in healthcare[J]. Nature Medicine, 2019, 25(1): 24–29. DOI:10.1038/s41591-018-0316-z |
[19] | Kassahun Y, Yu B, Tibebu AT, et al. Surgical robotics beyond enhanced dexterity instrumentation: a survey of machine learning techniques and their role in intelligent and autonomous surgical actions[J]. International Journal of Computer Assisted Radiology and Surgery, 2016, 11(4): 553–568. DOI:10.1007/s11548-015-1305-z |
[20] | Faria C, Vale C, Machado T, et al. Experiential learning of robotics fundamentals based on a case study of robot-assisted stereotactic neurosurgery[J]. IEEE Transactions on Education, 2015, 59(2): 119–128. |
[21] | BIS Research Inc. Global surgical robotics market: focus on products, applications, end users, countries, patents, market share, and competitive landscape-analysis and forecast (2017 – 2025)[R]. Research and Markets, 2018. |
[22] | Harpaz R, Dumouchel W, Shah NH, et al. Novel data-mining methodologies for adverse drug event discovery and analysis[J]. Clinical Pharmacology and Therapeutics, 2012, 91(6): 1010–1021. DOI:10.1038/clpt.2012.50 |
[23] | Ding H, Takigawa I, Mamitsuka H, et al. Similarity-based machine learning methods for predicting drug-target interactions: a brief review[J]. Briefings in Bioinformatics, 2014, 15(5): 734–747. DOI:10.1093/bib/bbt056 |
[24] | Lima AN, Philot EA, Trossini GH, et al. Use of machine learning approaches for novel drug discovery[J]. Expert Opinion on Drug Discovery, 2016, 11(3): 225–239. DOI:10.1517/17460441.2016.1146250 |
[25] | Faggella D. Seven applications of machine learning in pharma and medicine[EB/OL]. [2019 – 07 – 01], (2019 – 01 – 30). https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/. |
[26] | Nancy McMillan. How machine learning can speed quality measure development[EB/OL]. [2019 – 07 – 01], (2017 – 08 – 24).https://www.healthdatamanagement.com/opinion/how-machine-learning-can-speed-quality-measure-development?regconf=1". |
[27] | Choi E, Bahadori MT, Schuetz A, et al. Doctor AI: predicting clinical events via recurrent neural networks[J]. JMLR Workshop Cont Proc, 2016, 56(8): 301–318. |
[28] | 陈潇君, 孙炳伟, 苟建平. 深度机器学习辅助医院智能化管理[J]. 中国现代医学杂志, 2018(8): 125–128. DOI:10.3969/j.issn.1005-8982.2018.08.028 |
[29] | 刘文生. 英特尔: 重度布局人工智能[J]. 中国医院院长, 2017(6): 62–65. |
[30] | Charoentong P, Finotello F, Angelova M, et al. Pan-cancer immunogenomic analyses reveal genotype-immunophenotype relationships and predictors of response to checkpoint blockade[J]. Cell Reports, 2017, 18(1): 248–262. DOI:10.1016/j.celrep.2016.12.019 |
[31] | David BN. Harnessing the power of big data in healthcare[J]. American Health and Drug Benefits, 2014, 7(2): 69–70. |