| 基于胸片的迁移学习对活动性肺结核与社区获得性肺炎的鉴别诊断 |
2. 陕西中医药大学医学技术学院, 陕西 咸阳 712000;
3. 西安交通大学第一附属医院医学影像科, 陕西 西安 710061;
4. 西北农林科技大学信息工程学院, 陕西 西安 710127
2. College of Medical Technology, Shaanxi University of Chinese Medicine, Xianyang 712000, China;
3. Department of Medical Imaging, First Affiliated Hospital of Xi'an Jiaotong University, Xi'an 710061, China;
4. School of Information Science and Technology, Northwest Agriculture and Forestry University, Xi'an 710127, China
结核病死亡人数在全球传染性疾病中位居第1。2023年约1 080万人罹患结核病,且连续4年呈增长趋势[1]。结核分枝杆菌病原学阳性是诊断结核病的金标准,但标本采集方法及质量直接影响检测结果和培养分离率,因此误诊率较高。肺是结核病最常受累器官,胸部X线片(胸片)性价比高且操作简单快速[2],在大规模筛查时对活动性肺结核(active pulmonary tuberculosis,APTB)的评价敏感度高,但特异度较低[3],常需与社区获得性肺炎(community-acquired pneumonia,CAP)相鉴别[4]。不典型APTB的胸片特异度更低,尤其在免疫损害[5]、糖尿病或行不规范抗结核治疗的人群中[6]。不同放射科医师对两者的鉴别效能不同,部分结核高负担国家或偏远地区仍缺乏高水平的影像医师解读胸片[7]。近年来,深度学习技术在医学影像领域展现出较大潜力[8],其中卷积神经网络(convolutional neural network,CNN)在影像诊断中发挥着重要作用。以往研究仅采用VGG16网络进行训练[3],本研究进一步基于4种经典预训练网络探讨迁移学习技术对APTB与CAP的鉴别诊断价值。
1 资料与方法 1.1 一般资料回顾性分析陕西中医药大学附属医院2015年3月至2021年12月收治的APTB和CAP患者。纳入标准:①经病原学确诊为APTB或CAP;②均摄胸片,且有胸部CT扫描图像作为补充。排除标准:①胸片图像质量差;②胸片存在较多体外高密度异物影;③严重的肺间质纤维化。APTB影像诊断依据《肺结核活动性判断规范及临床应用专家共识》[9],CAP影像诊断依据《社区获得性肺炎诊断和治疗指南》[10]。
最终纳入1 228例,男670例,女558例;年龄3~89岁,平均(42.35±19.39)岁。其中APTB 715例(APTB组),CAP 513例(CAP组)。APTB组中有痰液标本487例,支气管冲洗或肺泡灌洗液标本73例,经皮穿刺活检标本68例,支气管镜标本63例,手术标本24例;CAP组中肺炎支原体156例,肺炎链球菌121例,肺炎衣原体53例,流感嗜血杆菌46例,肺炎克雷伯菌18例,金黄色葡萄球菌11例,流感病毒45例,副流感病毒36例,呼吸道合胞病毒24例,毛霉菌2例,曲霉菌1例。
1.2 数据集划分将所有样本按照5∶3∶2比例随机分为训练集(614例)、验证集(369例)及测试集(245例)。其中训练集APTB 357例,CAP 257例;验证集APTB 214例,CAP 155例;测试集APTB 144例,CAP 101例。
测试集患者采用不重复随机数重命名,由2位分别具有5、8年诊断经验的影像医师采用盲法对其诊断,结果不一致时经讨论决定,并与CNN结果对比。
1.3 CNN构建采用Python(版本:3.7.6)编程语言将所有胸片大小调整至224×224像素,并将灰度值归一化至0~1。采用Keras(使用TensorFlow后端,版本:2.3.1)深度学习框架构建CNN模型。选择ImageNet数据集上的4种经典预训练网络——VGG16、Xception、ResNet50及MobileNet进行迁移学习。
在上述预训练网络的卷积基后方添加分类器模块用于APTB与CAP的分类,其结构及超参数设置采用网格搜索确定,使用Sigmoid激活函数用于输出患APTB的概率。损失函数采用二分类交叉熵,评价指标采用准确率。批尺寸为20,共训练100个循环。
1.4 统计学分析采用SPSS 25.0软件分析数据。计数资料以例(%)表示,2组比较行χ2检验。服从正态分布的计量资料以x±s表示,2组比较行独立样本t检验。4种预训练网络在训练完成后分别选择在验证集准确率最高的模型作为最优模型,并计算该模型在测试集的准确率。绘制4种网络最优模型在测试集的ROC曲线,计算AUC、敏感度、特异度、阳性预测值、阴性预测值及F1得分评价模型的区分度。4种模型AUC的比较采用DeLong检验。Bootstrap重复抽样1 000次用于绘制4个模型的校准曲线。采用决策曲线分析评价模型的净获益。以P<0.05差异有统计学意义。
2 结果 2.1 2组一般资料比较2组性别构成比及年龄差异均无统计学意义(均P>0.05)(表 1)。
| 表 1 2组患者的一般资料比较 |
![]() |
2.2 CNN训练
4种网络训练100个循环的准确率和损失变化显示,VGG16和ResNet50在训练集与验证集中的性能相近,表明网络拟合、性能和泛化能力较好。Xception和MobileNet在训练集与验证集模型训练开始时便出现分离,训练集准确率明显大于验证集,即出现过拟合(图 1)。
![]() |
| 注:图 1a~1d分别为VGG16、Xception、ResNet50、MobileNet 图 1 4种预训练网络训练100个循环的准确率及损失变化曲线 |
VGG16第47次循环时在验证集准确率最高,为0.921,对应的二分类交叉熵为0.974;训练集准确率为0.956,对应的二分类交叉熵为0.422。Xception在第38次循环时在验证集准确率最高,为0.836,对应的二分类交叉熵为41.289;训练集准确率为0.813,对应二分类交叉熵为43.707。ResNet50在第46次循环时在验证集准确率最高,为0.959,对应的二分类交叉熵为1.587;训练集准确率为0.948,对应的二分类交叉熵为1.756。MobileNet在第81次循环时在验证集准确率最高,为0.869,对应的二分类交叉熵为5.354;训练集准确率为0.998,对应的二分类交叉熵为0.002。
2.3 模型验证及评价将上述4种网络在验证集准确率最高的模型应用于测试集,其中,VGG16、ResNet50和MobileNet的AUC均高于Xception,也均高于影像医师,差异均有统计学意义(均P<0.05)(表 2;图 2,3)。
| 表 2 4种网络的最优模型及影像医师在测试集的性能 |
![]() |
![]() |
| 图 2 4种网络最优模型及影像医师在测试集的ROC曲线 |
![]() |
| 注:阴影部分为95%CI 图 3 4种网络最优模型及影像医师的AUC比较(DeLong检验) |
校准曲线显示,VGG16、ResNet50及MobileNet最优模型的校准曲线靠近对角线,表明预测值与真实值接近,即校准度好,Xception最优模型的校准度较差。影像医师的校准曲线亦靠近对角线,表明校准度好(图 4)。
![]() |
| 注:VGG16、ResNet50及影像医师校准曲线有重叠 图 4 4种网络最优模型及影像医师在测试集的校准曲线 |
决策曲线分析表明,4种网络的最优模型及影像医师均可在较大概率阈值范围内使患者净获益(净获益=总诊断正确率-总诊断错误率),即选择不同概率阈值时均可使所有患者净获益。其中VGG16的最优模型使患者的净获益最大(图 5)。
![]() |
| 注:All代表所有患者为活动性肺结核,None代表所有患者为社区性获得性肺炎 图 5 4种网络最优模型及影像医师的决策曲线分析 |
2.4 胸片在VGG16卷积基输出的特征可视化(图 6,7)
图 6a及图 7a分别为APTB和CAP患者的胸片,图 6b及图 7b分别为2张胸片通过VGG16卷积基最后一个最大池化层提取的特征图,特征图大小为(宽×高×通道:7像素×7像素×512像素),后展平输入分类器模块用于图像分类。最终VGG16最优模型预测图 6a为APTB的概率为1.000,图 7a为APTB的概率为0.068。
![]() |
| 图 6为活动性肺结核患者,男,43岁,痰中带血2周,伴盗汗。图 6a为胸部正位片,示左肺上野斑片状高密度影,边界模糊不清,并见厚壁空洞影;图 6b为VGG16卷积基最后一个最大池化层提取该病例的特征图。 图 6 胸片在VGG16卷积基输出的特征可视化 Figure 6 |
![]() |
| 图 7为社区获得性肺炎患者,男,32岁,咳嗽伴发热8 d。图 7a为胸部正位片,示左肺上中野斑片状高密度影,边界模糊不清;图 7b为VGG16卷积基最后一个最大池化层提取该病例的特征图 图 7 胸片在VGG16卷积基输出的特征可视化 Figure 7 |
3 讨论
ImageNet数据集包括140万张标记图像,共有1 000个不同类别的自然图像。CNN在该大型数据集学到特征的空间层次更通用,可重复应用,在处理计算机视觉问题中具有很强的可移植性,即迁移学习。新分类任务和原始自然图像分类任务可不同,如上述1 000个不同类别中并不包括胸片,但CNN仍能获得很好的分类性能。因为迁移学习用于解决本研究的小型图像数据集的分类任务非常高效,在中央处理器中即可完成训练。表明迁移学习技术在大量自然图像上学到的底层特征也有助于医学图像的分类。
本研究使用ImageNet数据集的4种经典预训练网络VGG16、Xception、ResNet50及MobileNet的卷积基提取胸片特征。其中VGG16结构简单且特征表示强大,初学者易理解。Xception将标准卷积分解为深度卷积和逐点卷积,大幅降低了计算量并提升了效率,但其架构因与传统CNN不同需研究者花费更多精力理解和优化,尤其在小型数据集上。ResNet50解决了深层网络中的梯度消失问题,其残差块使网络更有效地学习医学影像图像的复杂特征,也有助于缓解过拟合问题;但其较大的参数量对计算要求更高。MobileNe专为移动和嵌入式设备优化,使用深度可分离卷积显著减少了参数量和计算量,可在较低端硬件快速完成训练,适合在资源受限环境中运行,但分类性能要逊于其他模型。上述4种网络各有优缺点,研究者可根据临床实际需求开展实验。本研究中4种预训练网络的最优模型在鉴别APTB与CAP胸片任务中均获得较高的性能,其中VGG16、ResNet50和MobileNet最优模型在测试集的区分度及校准度均较高,且可在较大概率阈值范围使患者净获益,其中VGG16最优模型高于其他模型和影像医师。
CNN的准确率受多种因素影响,其中超参数对其影响最大。本研究中在预训练模型的卷积基后方添加分类器模块的超参数由网格搜索确定,是在指定的超参数选择范围检索出最优组合,构成网络的分类器模块分别添加在4个预训练网络的卷积基后方,仅几分钟就能完成100个循环的训练。其中VGG16和ResNet50在鉴别APTB与CAP胸片数据集中拟合良好,无明显过拟合,同时最优模型在测试集中均获得了较高的分类性能,VGG16最优模型的AUC稍高于ResNet50,但差异无统计学意义。2个模型及影像医师的校准曲线几乎与对角线重合,表明校准度均较高。在后续的决策曲线分析中,VGG16最优模型的决策曲线均高于其他网络和影像医师,表明VGG16最优模型可使更多患者净获益。因此,VGG16最优模型为鉴别APTB与CAP胸片的最佳诊断模型。
Hwang等[11]开发了基于胸片的深度学习自动检测算法检测APTB和健康人群胸片,结果表明深度学习算法鉴别2组的AUC达0.911~1.000,显著高于影像科医师。Heo等[12]对比了多种预训练网络鉴别APTB与健康人群胸片的效能,发现VGG19的AUC最高(0.907 5),并进一步将人口学资料(性别、年龄、身高和体质量)纳入分析后,VGG19的AUC仅提高至0.921 3,且添加一个人口学变量时AUC的提高并不显著。本研究2组患者的性别构成比及年龄差异均无统计学意义,对模型的鉴别任务无意义,因此未将人口学资料纳入模型。Lakhani等[13]采用AlexNet及GoogLeNet网络鉴别APTB与健康人群的胸片,比较了使用预训练与未经训练模型、是否应用图像增强对模型性能的影响,结果表明预训练网络的AUC高于未训练模型,且应用图像增强模型的AUC高于未应用图像增强模型。图像增强技术除能提高模型性能外,还可降低模型训练的过拟合问题。本研究在训练前未使用图像增强技术,是因为使用图像增强模型训练速度慢且存储消耗大,中央处理器无法承担明显增加的计算负荷,但最终结果仍获得有较高分类性能的CNN模型。
CNN对鉴别APTB与健康人群胸片具有优势[14-15],但存在潜在风险,因CNN随训练进行权重不断优化,可能学会的映射仅能鉴别正常胸片与异常胸片[16],而非鉴别APTB与健康人群。因此,本研究将CAP作为对照组。有研究显示,联合病灶区域和淋巴结区域的CT影像组学特征模型鉴别儿童APTB与CAP的AUC为0.957[4]。CT影像组学联合临床模型在测试集和验证集的预测性能分别为0.888和0.850[17]。另有研究表明基于胸片开发的深度学习模型用于预测CAP患者30 d死亡率的性能较好[18]。本团队基于胸片对两者的鉴别,仅采用了VGG16一种预训练网络[3]。本研究进一步探讨了4种具有代表性的预训练网络分别进行训练、验证和评价,同时补充了与影像医师的比较,扩展了胸片联合CNN的临床应用范围的实用性。
本研究存在以下局限性:①仅选择CAP作为对照组,胸部其他病变可能对模型的应用存在潜在影响,未来应进一步完善肺部疾病谱,构建适合更多病种的深度学习工具。②样本量有限,未对APTB及CAP进一步分型。③APTB患者可能伴免疫损害或同时罹患肺部感染,存在潜在分组偏倚。④为多中心回顾性研究,大部分患者临床症状和实验室检查缺失,未来应开展前瞻性研究,训练上述参数以提高临床意义。⑤采用的深度学习分析技术方法较基础,未来应加强与理工科专家的深入合作研究。
综上所述,迁移学习技术对于APTB与CAP胸片有较高的鉴别诊断价值,在大规模体检中有较大的应用潜力。
| [1] |
World Health Organization. Global tuberculosis report 2024[R/OL]. (2024-10-29)[2025-01-16]. https://iris.who.int/bitstream/handle/10665/379339/9789240101531.
|
| [2] |
国家呼吸内科医疗质量控制中心, 中华医学会结核病学分会, 中国防痨协会结核病控制专业分会, 等. 综合医疗机构肺结核早期发现临床实践指南[J]. 中国防痨杂志, 2024, 46(2): 127-140. |
| [3] |
HAN D, HE T, YU Y, et al. Diagnosis of active pulmonary tuberculosis and community acquired pneumonia using convolution neural network based on transfer learning[J]. Acad Radiol, 2022, 29(10): 1486-1492. DOI:10.1016/j.acra.2021.12.025 |
| [4] |
WANG B, LI M, MA H, et al. Computed tomography-based predictive nomogram for differentiating primary progressive pulmonary tuberculosis from community-acquired pneumonia in children[J]. BMC Med Imaging, 2019, 19(1): 63. DOI:10.1186/s12880-019-0355-z |
| [5] |
RAJPURKAR P, O'CONNELL C, SCHECHTER A, et al. CheXaid: deep learning assistance for physician diagnosis of tuberculosis using chest X-rays in patients with HIV[J]. NPJ Digit Med, 2020, 3: 115. DOI:10.1038/s41746-020-00322-2 |
| [6] |
HAN D, CHEN Y, LI X, et al. Development and validation of a 3D-convolutional neural network model based on chest CT for differentiating active pulmonary tuberculosis from community-acquired pneumonia[J]. Radiol Med, 2023, 128(1): 68-80. |
| [7] |
NASH M, KADAVIGERE R, ANDRADE J, et al. Deep learning, computer-aided radiography reading for tuberculosis: a diagnostic accuracy study from a tertiary hospital in India[J]. Sci Rep, 2020, 10(1): 210. DOI:10.1038/s41598-019-56589-3 |
| [8] |
谢浩杰, 鲁明丽, 张陈, 等. 基于深度学习的肺结核检测综述[J]. 中国医学物理学杂志, 2024, 41(7): 918-924. |
| [9] |
国家感染性疾病临床医学研究中心, 深圳市第三人民医院, 《中国防痨杂志》编辑委员会. 肺结核活动性判断规范及临床应用专家共识[J]. 中国防痨杂志, 2020, 42(4): 301-307. |
| [10] |
中华医学会呼吸病学分会. 社区获得性肺炎诊断和治疗指南[J]. 中国实用乡村医生杂志, 2013, 20(2): 11-15. |
| [11] |
HWANG E J, PARK S, JIN K N, et al. Development and validation of a deep learning-based automatic detection algorithm for active pulmonary tuberculosis on chest radiographs[J]. Clin Infect Dis, 2019, 69(5): 739-747. DOI:10.1093/cid/ciy967 |
| [12] |
HEO S J, KIM Y, YUN S, et al. Deep learning algorithms with demographic information help to detect tuberculosis in chest radiographs in annual workers'health examination data[J]. Int J Environ Res Public Health, 2019, 16(2): 250. DOI:10.3390/ijerph16020250 |
| [13] |
LAKHANI P, SUNDARAM B. Deep learning at chest radiography: automated classification of pulmonary tuberculosis by using convolutional neural networks[J]. Radiology, 2017, 284(2): 574-582. DOI:10.1148/radiol.2017162326 |
| [14] |
KIM T K, YI P H, HAGER G D, et al. Refining dataset curation methods for deep learning-based automated tuberculosis screening[J]. J Thorac Dis, 2020, 12(9): 5078-5085. DOI:10.21037/jtd.2019.08.34 |
| [15] |
KHAN F A, MAJIDULLA A, TAVAZIVA G, et al. Chest X-ray analysis with deep learning-based software as a triage test for pulmonary tuberculosis: a prospective study of diagnostic accuracy for culture-confirmed disease[J]. Lancet Digit Health, 2020, 2(11): e573-e581. DOI:10.1016/S2589-7500(20)30221-1 |
| [16] |
SATHITRATANACHEEWIN S, SUNANTA P, PONGPI- RUL K. Deep learning for automated classification of tuberculosis-related chest X-ray: dataset distribution shift limits diagnostic performance generalizability[J]. Heliyon, 2020, 6(8): e04614. DOI:10.1016/j.heliyon.2020.e04614 |
| [17] |
LI P, WANG J, TANG M, et al. A CT-based radiomics predictive nomogram to identify pulmonary tuberculosis fromcommunity-acquired pneumonia: a multicenter cohort study[J]. Front Cell Infect Microbiol, 2024, 19(14): 1388991. |
| [18] |
KIM C, HWANG E J, CHOI Y R, et al. A deep learning model using chest radiographs for prediction of 30-day mortality in patients with community-acquired pneumonia: development and external validation[J]. AJR Am J Roentgenol, 2023, 221(5): 586-598. DOI:10.2214/AJR.23.29414 |
2025, Vol. 23











