2. 南方医科大学珠江医院检验医学部, 广州 510515
2. Division of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, Guangzhou 510515, Guangdong, China
胃癌是最常见的消化道恶性肿瘤之一,其患病率和死亡率均居于恶性肿瘤前列,全球每年约有70余万人死于胃癌[1]。我国是胃癌高发区,胃癌的患病率和死亡率在恶性肿瘤中排名仅次于肺癌,居第2位;据2015年统计数据,我国每年新发胃癌病例约65万,每年约有50万患者死于胃癌[2]。因此,胃癌的有效防治是亟需解决的重大医学问题。
胃癌恶性程度高,早期易被忽略,多数胃癌患者就诊时已处于中晚期,故预后差,如能早期诊断和治疗可明显改善预后。目前,胃癌诊断主要依赖胃镜结合组织病理学检查,但对早期胃癌的诊断率不高[3-4],即使采用蓝色激光成像等先进的内镜诊断技术,胃癌的诊断率仍不理想。
人工智能(artificial intelligence,AI)是通过计算和模拟实现人类的学习行为,以获取新的知识或技能,并重新组织已有知识结构使之不断自我进化。机器学习是AI的一种实现方法,它是AI的核心,是研究关于学习算法的学问。机器学习常见的算法包括监督学习、无监督学习、半监督学习、强化学习、深度学习、迁移学习等,其中迁移学习可以把为一个任务开发的模型重新用在另一个不同的任务中,并作为另一个任务模型的起点。迁移学习是一种优化方法,是节省时间或获得更好性能的捷径,它可以解决小数据问题和个性化问题,可应用于生物基因检测[5]、疾病预测[5]、图像识别[6]等领域。
近年,AI技术被应用于如肺癌[7]、皮肤癌[8]和糖尿病视网膜病变[9]等疾病的诊断,并显示出优异的诊断性能。本研究通过收集电子胃镜检查的早期及进展期胃癌、胃溃疡和慢性胃炎的普通清晰白光胃镜图像,基于迁移学习方法构建胃镜图像识别模型,并探讨其对胃癌的诊断价值。
1 材料和方法 1.1 图像资料收集2010年1月至2018年4月在暨南大学附属第一医院内镜中心行电子胃镜检查的患者普通清晰白光胃镜图像。纳入标准:(1)早期胃癌图像;(2)进展期胃癌图像;(3)胃溃疡图像;(4)慢性胃炎图像。排除标准:(1)急性胃炎图像;(2)胃息肉和其他胃疾病图像。上述疾病的诊断均通过组织病理学,超声内镜、增强计算机断层扫描(computered tomography,CT)或磁共振成像(magnetic resonance imaging,MRI)等影像学检查确诊。纳入病例均自愿签署知情同意书。最终共纳入早期胃癌图像420例,进展期胃癌图像1 581例,胃溃疡图像2 119例,慢性胃炎图像2 168例。
1.2 方法 1.2.1 迁移学习的基本概念迁移学习主要包含域和任务的概念。每个域D由特征空间χ以及边缘概率分布P(X)组成,且X={x1, x2, ……, xn}∈χ。例如,如果任务是文档分类,那么每一个单词则可以表示为二进制特征,X是所有单词的特征空间,xi是第i个单词的二进制特征。给定一个域D={χ, P(X)},一个任务T则可以由一个标签空间y以及一个目标函数fT(·)组成。此目标函数可以通过训练集中带有标签的数据训练得到,然后用来预测新的数据标签。从概率角度看,此目标函数可以表示为条件概率分布的形式P(y|X),对于二分类来说即真或假。给定一个源域Ds,一个原任务Ts,一个目标域Dt,一个目标任务Tt,迁移学习的目的就是在Ds ≠ Dt、Ts ≠ Tt的情况下,借助源域和原任务提高目标函数fT(·)在目标域的分类结果。本研究就是利用现有模型在公开的数据集上训练得到预训练模型,然后将此预训练模型迁移到胃镜图像的分类任务上。
1.2.2 迁移学习算法流程本研究的迁移学习算法流程主要包括以下4个步骤。(1)获取胃癌、胃溃疡及慢性胃炎的胃镜检查图像。(2)去除图像背景噪声:将获取图像周围的黑边框去掉,对图像进行简单处理,避免噪声干扰。(3)数据归一化:将图像作局部归一化,使所有图像的色调统一,去除由光线问题而产生的噪声。(4)数据扩增:解决获取的胃镜图像样本量不足的问题,本研究采用旋转、放大等方法进行数据扩增。算法流程中的去除图像背景噪声、数据归一化和数据扩增统称为数据预处理。以上4个步骤完成后开始模型训练,即将预处理图像输入模型。
1.2.3 模型设计选择在过去几年ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)赛中的冠军模型VGG19[10]、ResNet50[11]和Inception-V3[12]作为预训练模型。由于这3个模型原来是用于1 000个以上的分类模型,而本研究只有3个分类,因此本研究首先将其顶层完全连接层及其参数删除,其他层的参数保留,然后在此基础上构建胃镜图像识别模型。VGG19模型有19层,分为5组,每组均有几个卷积层,并被1个池化层分开;通过减少卷积核的大小,同时增加卷积层的数量来增强模型的学习能力[10]。ResNet50模型有50层,其基本结构是大小不同的各式各样的残余块,这些残余块利用特征性映射,大大缓解了梯度消失问题,但其带来的结果是网络的参数量可能会增多[11]。Inception-V3模型有22层,堆叠了几个不同卷积核大小的卷积层,大大减少了参数的数量,增加了网络的宽度[12]。为避免数据不一致导致实验结果的错误,本研究相关实验设置中网络使用相同的数据格式,即所有网络输入图像的文件格式均为JPG,分辨率均为224×224。本研究利用Python版的Keras 2.1.0实现网络结构的构建,3个模型的网络结构如图 1所示。
![]() |
图 1 3种模型的网络结构 Fig 1 Network structure of 3 models A: VGG19 model; B: ResNet50 model; C: Inception-V3 model. X: Number of network layers for a specific layer |
整个模型训练过程分成预训练和微调2个步骤,每个步骤均迭代训练100次。在预训练和微调过程中,每个步骤又分为训练和验证阶段。在训练阶段,使用预处理后的训练集图像(1 851例胃癌、1 969例胃溃疡和2 018例慢性胃炎图像)训练3个迁移学习模型;在验证阶段,使用独立测试集图像(胃癌、胃溃疡及慢性胃炎各150例图像)验证模型,此组图像仅做去除图像背景噪声、数据归一化的数据预处理,不做数据扩增处理。为便于观察3种模型的收敛速度,我们显示了VGG19、ResNet50、Inception-V3模型在预训练(图 2)中和微调(图 3)后每次迭代的准确性(accuracy)和损失值(loss)曲线;此外,还显示了VGG19、ResNet50、Inception-V3模型在预训练中每次迭代的准确度、灵敏度、F1分数3个指标的验证变化曲线(图 4),以及VGG19、ResNet50、Inception-V3模型在微调后每次迭代的准确度、灵敏度、F1分数3个指标的验证变化曲线(图 5)。
![]() |
图 2 3个模型的预训练结果 Fig 2 Pre-training results of 3 models A: Training accuracy of the 3 models suggests that ResNet50 has the best accuracy; B: Training loss of the 3 models indicates that the loss of ResNet50 is minimal; C: Validation accuracy of the 3 models suggests that ResNet50 has the best accuracy; D: Validation loss of the 3 models indicates that the loss of ResNet50 is minimal, and the loss of VGG19 is greater than that of the other 2 models |
![]() |
图 3 3个模型的微调结果 Fig 3 Fine-tuning results of 3 models A: Training accuracy of the 3 models indicates that ResNet50 and VGG19 have high accuracy; B: Training loss of the 3 models indicates that the loss of ResNet50 and VGG19 is relatively small; C: Validation accuracy of the 3 models indicates that ResNet50 is the most accurate; D: Validation loss of the 3 models indicates that the Inception-V3 loss is minimal, while the VGG19 loss is greater than that of the other 2 models |
![]() |
图 4 验证集图像在预训练中3个指标的变化曲线 Fig 4 Changing curves of 3 indexes of validation set images in pre-training process A: Precision; B: Sensitivity; C: F1-score. GC: Gastric cancer; GU: Gastric ulcer; CG: Chronic gastritis |
![]() |
图 5 验证集图像在微调后3个指标的变化曲线 Fig 5 Changing curves of 3 indexes of validation set images after fine-tuning A: Precision; B: Sensitivity; C: F1-score. GC: Gastric cancer; GU: Gastric ulcer; CG: Chronic gastritis |
2 结果 2.1 VGG19模型验证结果
VGG19模型在预训练阶段和微调阶段的验证结果见表 1。从表中可以看出,VGG19模型在微调后对胃癌及良性胃疾病(胃溃疡和慢性胃炎)的图像识别性能均有所提高。微调后的VGG19模型对胃癌、胃溃疡和慢性胃炎3类疾病分类的平均准确度、灵敏度、F1分数均为89%,说明此模型的稳健程度较强,分析结果可靠。
![]() |
表 1 VGG19模型在预训练阶段和微调阶段的验证结果 Tab 1 Validation results of VGG19 model in pre-training stage and fine-tuning stage |
2.2 ResNet50模型验证结果
ResNet50模型在预训练阶段和微调阶段的验证结果见表 2。从表中可以看出,ResNet50模型在微调后对胃癌及胃溃疡的图像识别性能均有所提高。微调后的ResNet50模型对胃癌、胃溃疡和慢性胃炎3类疾病分类的平均准确度、灵敏度、F1分数均为91%,说明此模型的稳健程度强,分析结果可靠。
![]() |
表 2 ResNet50模型在预训练阶段和微调阶段的验证结果 Tab 2 Validation results of ResNet50 model in pre-training stage and fine-tuning stage |
2.3 Inception-V3模型验证结果
Inception-V3模型在预训练阶段和微调阶段的验证结果见表 3。从表中可以看出,Inception-V3模型在微调后对胃癌及良性胃疾病(胃溃疡和慢性胃炎)的图像识别性能均有较大提高。微调后的Inception-V3模型对胃癌、胃溃疡和慢性胃炎3类疾病分类的平均准确度、灵敏度、F1分数均为89%,说明此模型的稳健程度较强,分析结果可靠。
![]() |
表 3 Inception-V3模型在预训练阶段和微调阶段的验证结果 Tab 3 Validation results of Inception-V3 model in pre-training stage and fine-tuning stage |
2.4 3个模型在验证过程中的图像分类混淆矩阵结果
对于AI模型来说,溃疡较表浅的胃溃疡图像与慢性胃炎相似,可能会导致模型识别混淆;严重胃溃疡的图像,如溃疡表面带有血迹等情况,可能与胃癌图像相类似,使其难以区分;早期凹陷型胃癌与胃溃疡或慢性胃炎有时也可发生混淆。表 4混淆矩阵结果显示,VGG19模型和Inception-V3模型倾向于将胃癌图像误判为胃溃疡,而ResNet50模型倾向于将胃溃疡图像误判为慢性胃炎。在这3个种模型中,ResNet50对胃癌和慢性胃炎的图像识别效果最佳,在450幅样本验证集中,ResNet50模型未将慢性胃炎图像误判为胃癌或把胃癌误判为慢性胃炎。
![]() |
表 4 3个模型预训练阶段和微调阶段在验证过程中的图像分类混淆矩阵结果 Tab 4 Results of image classification and confusion matrix during validation process in pre-training stage and fine-tuning stage of 3 models |
3 讨论
胃癌起病隐匿,早期无特异症状,临床表现与胃溃疡、慢性胃炎等慢性胃病不易区别,容易被患者、甚至医师疏忽而延误诊断[13]。胃癌诊断目前主要依赖胃镜结合黏膜活组织病理检查,但总体诊断率仍然不高,其存在多方面的原因。首先,早期胃癌分为隆起型、表浅型和凹陷型,一般病灶范围较小,浸润深度不超过黏膜下层,尤其是较小的表浅型和凹陷型早期胃癌图像不易与表浅的胃溃疡、慢性胃炎区别,以至于误诊为良性胃疾病未行活组织检查而漏诊;进展期胃癌分为隆起型、局限溃疡型、浸润溃疡型和弥漫浸润型,其中溃疡型胃癌图像易与胃溃疡混淆不清,有时即使是通过黏膜活组织检查(取材不易)结合超声胃镜、CT等检查手段也难以确诊[14]。其次,我国幅员辽阔,人口众多,尤其是偏远、农村地区基层医院,由于缺乏合格的病理医师而未设置病理科,行胃镜检查后对可疑胃癌病例未行黏膜活组织检查而漏诊。最后,胃镜检查医师对胃癌图像的识别差异而导致部分胃癌漏诊。
近年来,AI技术在医学疾病诊断领域展现出广阔的应用前景。Esteva等[8]采用AI深度学习技术构建的诊断模型对皮肤癌诊断的灵敏度和特异度均超过90%;Gulshan等[9]构建的AI诊断模型诊断糖尿病视网膜病变的能力可与经验丰富的眼科医师相媲美;Shichijo等[15]采用胃镜检查图像构建幽门螺杆菌感染性胃炎诊断模型,其诊断灵敏度和特异度分别为88.9%及87.4%,诊断准确性及耗时均优于内镜医师。腾讯公司构建的食管癌早期筛查模型对早期食管癌诊断率超过90%,并且完成一次内镜检查的时间可控制在数秒之内[16]。
迁移学习是一种机器学习方法,是把一个领域(即源领域)的知识迁移到另一个领域(即目标领域),使得目标领域能够取得更好的学习效果。深度学习也是一种机器学习方法,但对于个人来说,要运用该技术除了需要具备高超的编程技巧,还需要有海量的数据支持和强劲的硬件。但是,迁移学习技术允许我们利用现有的模型加上少量数据和训练时间,就可取得不俗的效果。
在本研究中,我们采用迁移学习方法构建了胃镜图像识别诊断模型。首先,我们收集了2 001例胃癌(早期420例,进展期1 581例)、2 119例胃溃疡、2 168例慢性胃炎患者的普通清晰白光胃镜图像,形成了一个较小的图像数据集。将其分为训练集图像组(1 851例胃癌、1 969例胃溃疡和2 018例慢性胃炎图像)和测试集图像组(胃癌、胃溃疡及慢性胃炎各150例图像)。接着,将训练集图像进行包括去除图像背景噪声、数据归一化和数据扩增的数据预处理,而测试集图像做除外数据扩增以外的数据预处理过程。随后,将ILSVRC赛中的冠军模型VGG19[10]、ResNet50[11]和Inception-V3[12]作为预训练模型进行改造,即删除顶层完全连接层及其参数,以便更符合本研究的需要。最后进行模型训练,训练过程分为预训练和微调2个步骤,每个步骤又分为训练和验证阶段。在训练阶段,使用训练集图像训练3个改进后的模型;在验证阶段,使用独立测试集图像验证模型。结果显示,3个模型经过预训练和微调后,对胃癌与良性胃疾病(胃溃疡和慢性胃炎)均有较好的图像识别性能,其中ResNet50模型综合性能表现最好,对胃癌、胃溃疡及慢性胃炎的诊断准确度分别达93%、92%及88%,稳健性也最好。本研究应用一个较小的胃镜图像数据集,通过迁移学习方法构建了一个令人较满意的诊断软件模型,它可以较为准确地区分胃癌与良性胃疾病(胃溃疡和慢性胃炎)。
据报道,普通白光胃镜对早期胃癌诊断准确度为25.58%~78%[17-20];另有报道显示白光胃镜对胃癌的诊断准确度为80%[21]。本研究构建的胃镜图像识别模型对胃癌的诊断准确度明显超过上述报道,且可以消除因胃镜检查医师对胃癌图像的识别差异而导致对胃癌诊断率的影响。
总之,本研究基于迁移学习技术,利用ResNet50模型建立的胃镜图像识别软件模型令人满意,可以较准确地区分胃癌与良性胃疾病(胃溃疡和慢性胃炎)。今后如能将本研究建立的胃癌诊断软件模型联合遥控胶囊内镜系统,可望实现无创早期胃癌普查。
志谢 本研究得到了广州市碳码科技有限责任公司算法工程师曹彬彬、舒宁在数据建模方面的技术支持与帮助,在此表示感谢。
[1] |
JEMAL A, BRAY F, CENTER M M, FERLAY J, WARD E, FORMAN D. Global cancer statistics[J]. CA Cancer J Clin, 2011, 61: 69-90. DOI:10.3322/caac.v61:2 |
[2] |
CHEN W, ZHENG R, BAADE P D, ZHANG S, ZENG H, BRAY F, et al. Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66: 115-132. DOI:10.3322/caac.21338 |
[3] |
PARK C H, KIM H, KANG Y A, CHO I R, KIM B, HEO S J, et al. Risk factors and prognosis of pulmonary complications after endoscopic submucosal dissection for gastric neoplasia[J]. Dig Dis Sci, 2013, 58: 540-546. DOI:10.1007/s10620-012-2376-0 |
[4] |
CAN M F, YAGCI G, CETINER S. Systematic review of studies investigating sentinel node navigation surgery and lymphatic mapping for gastric cancer[J]. J Laparoendosc Adv Surg Tech A, 2013, 23: 651-662. DOI:10.1089/lap.2012.0311 |
[5] |
OGOEH A, VISWESWARAN S, LU X, GOPALAKRISHNAN V. Knowledge transfer via classification rules using functional mapping for integrative modeling of gene expression data[J/OL]. BMC Bioinformatics, 2015, 16: 226. doi: 10.1186/s12859-015-0643-8.
|
[6] |
王柯力, 袁红春. 基于迁移学习的水产动物图像识别方法[J]. 计算机应用, 2018, 38: 1304-1308, 1326. DOI:10.3969/j.issn.1001-3695.2018.05.005 |
[7] |
BIBAULT J E, GIRAUD P, BURGUN A. Big data and machine learning in radiation oncology:state of the art and future prospects[J]. Cancer Lett, 2016, 382: 110-117. DOI:10.1016/j.canlet.2016.05.033 |
[8] |
ESTEVA A, KUPREL B, NOVOA R A, KO J, SWETTER S M, BLAU H M, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542: 115-118. DOI:10.1038/nature21056 |
[9] |
GULSHAN V, PENG L, CORAM M, STUMPE M C, WU D, NARAYANASWAMY A, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J]. JAMA, 2016, 316: 2402-2410. DOI:10.1001/jama.2016.17216 |
[10] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C/OL]//International Conference on Learning Representations (ICLR) 2015, May 7-9, 2015, San Diego, California. (2015-04-10)[2018-08-20]. https://arxiv.org/abs/1409.1556.
|
[11] |
HE K, ZHANG X, REN S, SUN J. Deep residual learning for image recognition[C]//O'CONNER L, eds. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: 770-778.
|
[12] |
SZEGEDY C, VANHOUCKE V, IOFFE S, SHLENS J, WOJNA Z. Rethinking the inception architecture for computer vision[C]//O'CONNER L, eds. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: 2818-2826.
|
[13] |
XU T P, WANG W Y, MA P, SHUAI Y, ZHAO K, WANG Y F, et al. Upregulation of the long noncoding RNA FOXD2-AS1 promotes carcinogenesis by epigenetically silencing EphB3 through EZH2 and LSD1, and predicts poor prognosis in gastric cancer[J]. Oncogene, 2018, 37: 5020-5036. DOI:10.1038/s41388-018-0308-y |
[14] |
EZOE Y, MUTO M, UEDO N, DOYAMA H, YAO K, ODA I, et al. Magnifying narrowband imaging is more accurate than conventional white-light imaging in diagnosis of gastric mucosal cancer[J/OL]. Gastroenterology, 2011, 141: 2017-2025.e3. doi: 10.1053/j.gastro.2011.08.007.
|
[15] |
SHICHIJO S, NOMURA S, AOYAMA K, NISHIKAWA Y, MIURA M, SHINAGAWA T, et al. Application of convolutional neural networks in the diagnosis of Helicobacter pylori infection based on endoscopic images[J]. EBioMedicine, 2017, 25: 106-111. DOI:10.1016/j.ebiom.2017.10.014 |
[16] |
腾讯发布一个AI神器有望攻克食管癌早筛难题[J].信息与电脑(理论版), 2017(15): 10.
|
[17] |
王博. 对比NBI与普通白光在早期胃癌诊断中的差异[J]. 中国现代药物应用, 2015, 9: 57-58. |
[18] |
YAMADA S, DOYAMA H, YAO K, UEDO N, EZOE Y, ODA I, et al. An efficient diagnostic strategy for small, depressed early gastric cancer with magnifying narrowband imaging:a post-hoc analysis of a prospective randomized controlled trial[J]. Gastrointest Endosco, 2014, 79: 55-63. DOI:10.1016/j.gie.2013.07.008 |
[19] |
DOHI O, YAGI N, MAJIMA A, HORⅡ Y, KITAICHI T, ONOZAWA Y, et al. Diagnostic ability of magnifying endoscopy with blue laser imaging for early gastric cancer:a prospective study[J]. Gastric Cancer, 2017, 20: 297-303. DOI:10.1007/s10120-016-0620-6 |
[20] |
CHOI J, KIM S G, IM J P, KIM J S, JUNG H C, SONG I S. Endoscopic prediction of tumor invasion depth in early gastric cancer[J]. Gastrointest Endosc, 2011, 73: 917-927. DOI:10.1016/j.gie.2010.11.053 |
[21] |
宗宪奇. 胃癌在镜下取活检的诊断分析[J]. 中国实用医药, 2010, 5: 35-36. |