文章信息
- 王智, 武艳飞, 李晓凤
- Wang Zhi, Wu Yanfei, Li Xiaofeng
- 三维卷积神经网络预测肺腺癌患者肺CT内并发结节属性
- Attribute prediction of concurrent nodules in lung CT in patients with lung adenocarcinoma using three-dimensional convolutional neural network
- 实用肿瘤杂志, 2021, 36(3): 240-246
- Journal of Practical Oncology, 2021, 36(3): 240-246
基金项目
- 吴阶平医学基金会临床科研专项基金(320.6750.2020-19-37)
-
通信作者
- 李晓凤, E-mail: 67964992@qq.com
-
文章历史
- 收稿日期:2020-07-25
2. 巴彦淖尔市医院病理科, 内蒙古 巴彦淖尔 015000;
3. 包头市肿瘤医院胸部肿瘤科, 内蒙古 包头 014040
2. Pathology Department, Bayannur City Hospital, Bayannur 015000, China;
3. Chest Oncology Department, Baotou Cancer Hospital, Baotou 014040, China
肺癌是全世界癌症死亡的主要原因。肺癌是我国死亡率最高的癌症,而肺结节则是早期肺癌的主要征象,对肺癌的诊断具有重要意义[1]。CT能通过断层图像重建出结节的三维形态,是肺癌临床诊断以及筛查的主要手段,因此通过计算机在CT图像中进行肺结节检测成为人工智能(artificial intelligence, AI)在医疗领域的重要应用。AI算法模型不仅能提取肺结节的位置和形态信息,还能进一步提供肺结节分类(实性、亚实性及钙化等)乃至肿瘤良恶性分级等一些决策意见供医师参考。一些模型的筛查结果从统计学上看要优于经验丰富的影像科医师[2-6]。肺部深度学习起步较早,国内外有多个研究角度,在诊断与鉴别诊断、肺癌组织学分型的预测、肿瘤基因表型的预测、肿瘤基因突变的预测、肺癌疗效评价及预测预后等方面均有进展[5]。随着近年来薄层CT的应用,肺癌早筛查的广泛使用,AI肺结节筛查系统的应用,早期肺癌的诊断治疗率有所提高,但不可否认的是临床中还有大量中晚期患者。其中肺部CT检查中往往显示并发1个或多个结节。这些结节的性质往往影响肺癌患者的诊断、分期、治疗方案的选择、疗效评估和预后。
肺癌中肺腺癌所占比例最大,且进展较快,转移较早。得益于众多靶向药物的开发,肺腺癌患者的生存期不断延长,同时也对疾病的评估提出更高的要求。肺部CT检查作为无创、低价和易获得的检查手段在疾病评估中起到主要作用。以往病情评估依赖于CT影像医师经验,受限于无法量化。随着AI技术不断进步,新开发的三维卷积神经网络(three-dimensional convolution neural network, 3D CNN)模型在肺结节良恶性判断的敏感度和特异度方面均达到甚至超过影像学医师,且该技术是量化的和可追溯对比的。其应用在临床上对疾病的评估预测具有重大意义。
通过CT检查,肺癌可以在其初始阶段作为肺结节在放射学上被检测到。低剂量多探测器CT的利用率提高,CT上偶然检测到的肺结节率增加,确诊肺癌的患者在治疗过程中又会出现新发肺结节,该结节性质在治疗中拥有重要意义,这会造成CT图像的解释量增加,给放射科医师带来挑战。在CT上自动检测肺结节在结节检测和早期癌症诊断及确诊肺癌的诊治中均起着重要作用。计算机辅助检测肺结节在胸部CT扫描中的研究在过去20年中迅速发展[7]。
计算机辅助检测(computer aided diagnosis, CAD)领域提出了各种传统的基于特征的机器学习方法,特别是分类方法。统计基于特征的CAD方案,敏感度波动在38%~100%之间,每份扫描图像出现0.7~74.4个假阳性。然而,不同的CAD方案很难比较,因为只有少数研究提供了使用公共数据库的不同CAD模型的比较性能评估。此外,手工制作的特征是有限的,很难提供一个完整的数量描述肺结节的外观[8-12]。
一系列的研究结果表明,卷积神经网络比手工制作的基于特征的CAD模型更有效地代表高层特征,并产生更好的分类结果[13-14]。然而类似于Dou等[14]的研究结果,减少假阳性往往会牺牲诊断效能。在检测假阳性为0.68时,检测敏感度仅为38.44%。本研究组提出的两相预测3D CNN网络,具有完全卷积的神经网络,可用于检测候选的多层次图像的三维体积和特征。同时还包含了既往为减少假阳性及减少工作量被CAD模型忽略的较小的结节。有学者的肺癌方案采用≥6 mm的结节,而 < 6 mm的结节被认为是无关的[15-17]。与筛查项目中对小结节不太积极的管理不同,放射科医师应根据2017年弗莱施纳社会指南对偶然发现的结节进行解释,该指南建议 < 6 mm的高风险结节患者或多个亚固体结节患者应进行常规的随访CT扫描[18]。因此,无论大小,附带的结节检测都应与随后的结节分析和管理分开。在2020年Yang等[19]1 177例肺结节3D CNN预测中的结果也提示 < 6 mm的结节中有相当数量的病理结果为恶性。
临床医师在评价肺腺癌并发结节时往往由于主观或客观原因而忽略较小的肺结节从而造成病情分期及评估方面的失误,影响疾病治疗。本研究使用的模型包含几乎所有 > 3 mm的结节,避免该缺陷,旨在利用AI系统对肺腺癌患者病情变化作出评估和预测。
1 资料与方法 1.1 实验方法 1.1.1 CT扫描方法选GE CT大螺距模式,管电压为sn100 kV, 管电流为20 mAs,机架螺旋时间为0.25 s,螺距为2.0,层厚为1.5 mm,层间距为2.0 mm,扫描视野为300~500 mm。受检者仰卧,单次深吸气后屏气连续扫描,扫描范围从胸廓入口开始至肋膈角下缘。采用实时迭代的ADMIRE技术进行图像重建,重建层厚为0.6 mm,间隔为0.6 mm。每次扫描结束后记录剂量长度乘积(dose-length product, DLP),根据公式人工计算有效剂量(effective dose, ED):ED=DLP×k,k为系数,参照欧盟关于CT图像质量标准指南胸部k值为0.017 mSv/(mGy×cm)。
1.1.2 研究方法应用神经网络的部分结构提取肺结节的低水平特征,并将CapNet作为结节分类前的最后一层,以获得肺结节的高水平特征,这使得改进的深度学习(deep learing, DL)模型节省了空间,并捕获更深的肺结节信息进行分类。获得患者的肺部电子计算机断层扫描CT图像,然后从该扫描获得的CT图像中提取肺结节图像,可以对提取到的肺结节图像进行预处理,如图像格式转换和图像灰度处理等。该深度学习模型包括卷积层(convolution)、池化层[(如最大池化层(Max-pooling)]和全连接层,从而来预测属性特征的分类。其中,卷积层用来学习输入图像的一些特征映射,池化层用来保证映射图像的效果不变前提下,来减少模型的计算复杂度。而全连接层就是将这些学到的特征映射进行一系列的转换,变成可以输入到分类器的格式的操作。
具体过程步骤:首先在申请实施例中的肺结节CT图进行关联分析。在利用数据挖掘算法对特征信息进行提取,获得一些初始特征信息,如形状特征、强度特征、纹理特征和高阶特征,包括肺结节表面的能量、相关、对比度、逆差距和熵等图像纹理性质。然后,可以利用特征选择方法对上述特征进行选择,可以通过方差选择、K-Best和Lasso算法进行特征选择。进行特征选择的目的,一方面可以减少特征数量和降维,使得模型泛化能力更强,减少过拟合;另一方面是增强对特征和特征值之间的理解。对于上述得到的初始特征信息,可以过滤一些可能会对肺结节判断的中间模型起偏差的特征以及一些相关程度不高的特征。在此进行特征的重要程度分析,使用K-Best的方法得到P值较大的特征并进行保留。同时需要对选择后的初始特征进行特征分析,包括相关性分析、聚类分析和主成分分析等。
根据所述第一特征信息和所述第二特征信息进行融合处理,并根据融合后的特征生成维度矢量;对过滤后的各个特征进行量化编码,而生成有M个值的一维矢量和N个值的第二特征信息。利用深度学习分类器softmax,对这2个维度(第一特征信息和第二特征信息)的特征按照通道级别进行组合叠加,生成1个M+N个值的一维矢量,并放入分类器进行训练测试。在训练网络中,在实施例中固定高维语义信息的参数,将损失函数回传到低维像素特征,使得该回传信息中也带有一定的语义信息。通过高效地结合高维语义信息和低维像素信息,能够更好地对肺结节的性质进行分析,更好地对影像医师的阅片习惯进行建模,即根据影像表现的报告上的信息作出判断。最终给予肺结节恶性可能性的概率值,以百分数表示(图 1)。
![]() |
图 1 3D CNN肺结节属性预测系统模型原理示意图 Fig.1 A schematic diagram of 3D CNN pulmonary nodule attribute prediction system |
本实验与以往不同的是人工检测基于模拟正常影像学医师工作流程。备选影像学资料由2名经验丰富的放射科医师给出。初诊由从事 > 3年影像科工作的住院医师担任(年阅片 > 6 000张肺CT影像片,其中肺结节约10%~20%),二审由工作 > 8年且担任主治医师或担任主治医师以上职称 > 3年的影像学医师担任(年阅片 > 6 000张肺CT影像片,其中肺结节约10%~20%)。在鉴别肺部并发的良恶性结节之前,不知道该结节的病理结果,但可以有增强CT检查结果作为参照。所有结节均在肺窗图像[窗宽1 600~2 000 Hounsfield unit(HU);窗水平-800~-600 HU]上评估,有3个投影(轴向、冠状和矢状)。放射科医师的判断是基于结节形态的实证分析,包括结节直径、分叶、压痕支气管图、推测和边界以及强化后表现。如果2名放射科医师有意见不统一,由科室主任医师判定。
1.2 数据采集 1.2.1 实验选取标本的基本情况依据WHO 2015版的肺癌分类为依据[19],本实验调取2016年至2018年包头市肿瘤医院首诊的拥有完整病理诊断并基因突变检测的肺腺癌患者共217例,年龄范围35~91岁,(61.42±10.15)岁;男性113例,女性104例。同时统计患者的各基因表达情况,发现在全部肺腺癌患者中EGFR基因突变(18、19、20、21号染色体突变)例数较高,达到82例(38.8%,图 2)。
![]() |
注 KRAS:Kirsten大鼠肉瘤病毒癌基因同源物(Kirsten rat srcoma viral oncogene homolog);C-MET:细胞间质上皮转换因子(cellular-mesenchymal epithelial transition factor);ROS-1:c-Ros原癌基因1受体酪氨酸激酶(c-Ros oncogene 1 receptor tyrosine kinase);ALK:间变性淋巴瘤激酶(anaplastic lymphoma kinase) 图 2 217例肺腺癌患者基因突变情况 Fig.2 Expression of mutant genes in 217 patients with lung adenocarcinoma |
调取患者原始CT检查影像学资料,其中有同时合并肺内结节的患者164例,选取其中拥有完整肺部CT影像学资料,拥有明确肺结节的病理资料(或经3名主任医师经临床治疗后确诊结节性质,并有影像学持续病史追踪确认)的患者共74例,每例患者选取≤3枚典型结节(结节选取采用临床医师考虑影像肺癌分期,对预后有意义的为主),最终结节数为171枚(不包含原发病灶),见表 1。
参数 | Ⅰ期(n=9) | Ⅱ期(n=6) | Ⅲ期(n=39) | Ⅳ期(n=20) | 所有患者(n=74) |
性别(例) | |||||
男性 | 4 | 3 | 28 | 11 | 46 |
女性 | 5 | 3 | 11 | 9 | 28 |
年龄(岁,x±s) | 63.3±6.0 | 65.7±5.4 | 61.0±10.9 | 62.2±12.2 | 62.3±10.3 |
恶性结节比例 | 6/16 | 17/26 | 58/79 | 36/50 | 117/171 |
人工因素对于肺结节的性质分类较为复杂,包括实性、磨玻璃样、部分实性、钙化和不规则肺结节等。在人工阅片中,放射科医师根据理论知识及实践学习对肺结节进行诊断,依据的判定包括分叶、毛刺、胸膜牵拉凹陷、含气支气管征和小泡征和偏心性厚壁空洞等,但以上征象往往在较大结节中才能被人眼区分[20]。且不同医师对于结节的分类主观性很强,所以根据肺结节的密度,AI将结节可分为实性、部分实性和磨玻璃密度结节3类。不同密度的肺结节为恶性的概率有所不同,笔者目前尚在收集相关数据,结论未得出。AI技术对于CT图像的解读也是基于既往病例的对照和学习,可以在短时间内对大量数据进行处理和学习,并能够对人眼所不能观察到的影像征象进行学习。研究者仅处于利用已有病理结节的大量数据采用图像矩阵分析法提取特征后利用随机森林来确定肺结节,形态的特异性尚需进一步寻找和查证(图 3)。在人工阅片时为了防止主观暗示,本研究组未向影像医师提出重点观察的结节位置,所以影像医师对于结节性质的报告存在大量缺失,本文未统计人工对结节性质的结论。
![]() |
图 3 74例研究者随机选取结节的基本信息 Fig.3 Basic information of randomly selected nodules of 74 included patients |
调取该74例拥有完整肺部CT影像学资料且拥有明确肺结节病理资料的患者的首诊前肺部CT影像学资料,进行InferReadTM系统判定该171枚结节性质,结果以恶性比例表示,定义为AI组。AI组以 < 50%为低度恶性,50%~70%为中度恶性,> 70%为高度恶性(截断值指标依据机器学习计算得出)。以高度恶性为恶性判断标准,判断结果定义为AI截断组。比较AI判定结果与病理结果(包含专家追溯判断结果)。请包头市肿瘤医院影像科医师对选定结节的CT影像学进行判定,预测选定结节的良恶性属性。模拟正常CT报告的流程,住院医师初诊,主治医师复核,主任医师确认,最终结果定义为人工组。将报告进行两两比较。比较AI与人工方法的敏感度、特异度及接收者操作特征(receiver operating characteristic, ROC)曲线。
1.3 计算方法采用SPSS 25软件和MedClac软件计算AI(截断组)、AI组和人工组分别对比病理结果的预测准确性,以敏感度、特异度、约登指数及曲线下面积(area under curve, AUC)值表示,并行χ2检验比较优劣性。使用SPSS 25软件对AI和人工方法行logistic回归得出使用AI和人工联合的肺腺癌合并结节的属性预测概率,再使用MedCalc软件求得其预测值指标与其余相关方法的ROC曲线。
2 结果 2.1 AI组、AI截断组及人工组对病理结果的预测准确性AI组及AI截断组敏感度及特异度均较人工组高,AI截断组与人工组比较,差异具有统计学意义(P=0.012,表 2)。
诊断指标 | AI组 | AI截断组 | 人工组 |
敏感度(%) | 87.2 | 89.6 | 76.1 |
特异度(%) | 88.9 | 86.8 | 77.8 |
符合率(%) | 77.0 | 76.4 | 53.9* |
AUC | 0.888 | 0.882 | 0.765 |
注 AI:人工智能(artificial intelligence);AUC:曲线下面积(area under curve);*与AI截断组比较,P < 0.05 |
AI组和AI截断组的ROC曲线比较,差异无统计学意义(P=0.859),而AI组与人工组比较,差异具有统计学意义(P=0.016)。AI截断组与人工组之间比较,差异具有统计学意义(P=0.020)。AI组与AI截断组对肺腺癌并发结节病理结果的预测效能均优于人工组(图 4)。
![]() |
图 4 AI组、AI截断组及人工组预测方法的ROC曲线 Fig.4 ROC curves of AI, AI truncation and artificial groups |
使用SPSS 25软件对AI截断组和人工组的预测结果作logistic逻辑回归预测,得出使用AI联合人工判断肺腺癌合并结节属性的预测概率,定义为人工联合AI组,再使用MedCalc软件求得其预测指标。联合方法得出的AI联合人工组敏感度为91.3%、特异度为88.7%、AUC为0.943。与人工组比较,差异具有统计学意义(P < 0.01)。将其与独立AI组进行比较,差异具有统计学意义(P=0.037)。联合人工和AI对于肺腺癌并发肺结节的预测优于单独使用AI预测(图 5)。
![]() |
图 5 人工组、AI组、AI截断组和AI联合人工组对肺结节属性预测的ROC曲线 Fig.5 ROC curves of pulmonary nodule property prediction in the artificial, AI, AI truncation and artificial and AI combination groups |
优化后的AI系统在肺腺癌结节属性判断上具有较高准确性,较单纯使用人工准确性高,且具有不疲劳、不主观和可追溯对比的优势,联合人工判定可对肺腺癌中结节性质的预测达到较高水平。
实验选取的肺腺癌中的并发结节往往具有明显性,体积较大,且判断原则取决于临床医师,多选取较明显、易行观察和具有临床意义的结节,并且考虑恶性结节的较多,所以数据不免偏驳,且回避了AI的短板:假阳性的问题。所以在结论中AI表现较好。但查找相关论文,近几年优化后的AI预测结节属性敏感度和特异度较本研究相差不大[21]。这可能与近几年海量数据对AI的优化有关。本研究组设想的是利用AI技术加上人工判定完成以下工作:(1)在肺腺癌初期即能判定恶性结节的性质,早治疗,早诊断;(2)对于肺腺癌的诊断分期中达到更高的准确性优化治疗方案,节省医疗费用,提高基层医疗水平;(3)对于治疗中的新发结节作出判定以免干扰治疗;(4)对治疗效果进行量化评估,确定新的AI标准,现在的CAD技术已经可以通过3D重建计算出结节的体积和平均最大双顶径,从而对治疗效果进行量化管理;(5)可否在越来越多的靶向治疗中通过AI技术对治疗做出预测。以上设想仍需要更多的临床数据及实验支持。
[1] |
刘聪, 殷保才, 严峻. 人工智能在医疗肺结节检测领域的实践[J]. 信息技术与标准化, 2017, 22(11): 30-31. |
[2] |
胡伟俭, 陈为, 冯浩哲, 等. 应用于平扫CT图像肺结节检测的深度学习方法综述[J]. 浙江大学学报: 理学版, 2017, 44(4): 379-384. |
[3] |
Bejnordi BE, Veta M, Van Diest PJ, et al. Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer[J]. JAMA, 2017, 318(22): 2199-2210. DOI:10.1001/jama.2017.14585 |
[4] |
Shichijo S, Nomura S, Aoyama K, et al. Application of convolutional neural networks in the diagnosis of helicobacter pylori infection based on endoscopic images[J]. EBioMedicine, 2017, 25(11): 106-111. |
[5] |
De Bruyne B, Fearon WF, Pijls NH, et al. Fractional flow reserve-guided PCI for stable coronary artery disease[J]. N Engl J Med, 2014, 371(13): 1208-1217. DOI:10.1056/NEJMoa1408758 |
[6] |
Santa-Maria CA, Gradishar WJ. Changing treatment paradigms in metastatic breast cancer: lessons learned[J]. JAMA Oncol, 2015, 1(4): 528-534. DOI:10.1001/jamaoncol.2015.1198 |
[7] |
Abdolmanafi A, Duong L, Dahdah N, et al. Deep feature learning for automatic tissue classification of coronary artery using optical coherence tomography[J]. Biomed Opt Express, 2017, 8(2): 1203-1220. DOI:10.1364/BOE.8.001203 |
[8] |
Gasparri R, Romano R, Sedda G, et al. Diagnostic biomarkers for lung cancer prevention[J]. J Breath Res, 2018, 12(2): 027111. DOI:10.1088/1752-7163/aa9386 |
[9] |
Rami-Porta R, Bolejack V, Crowley J, et al. The IASLC lung cancer staging project: proposals for the revisions of the T descriptors in the forthcoming eighth edition of the TNM classifification for lung cancer[J]. J Thorac Oncol, 2015, 10(7): 990-1003. DOI:10.1097/JTO.0000000000000559 |
[10] |
Austin JHM, Kavita G, Denise A, et al. Radiologic implications of the 2011 classification of adenocarcinoma of the lung[J]. Radiology, 2013, 266(1): 62-71. DOI:10.1148/radiol.12120240 |
[11] |
Siegel RL, Miller KD, Jemal A. Cancer statistics, 2018[J]. CA Cancer J Clin, 2018, 68(1): 7-30. DOI:10.3322/caac.21442 |
[12] |
Hossain R, Wu CC, De PG, et al. Missed lung cancer[J]. Radiol Clin North Am, 2018, 56(3): 365-375. DOI:10.1016/j.rcl.2018.01.004 |
[13] |
Joy Mathew C, David AM, Joy Mathew CM. Artificial intelligence and its future potential in lung cancer screening[J]. EXCLI J, 2020, 11(10): 1552-1562. |
[14] |
Dou Q, Chen H, Yu L, et al. Multilevel contextual 3D CNNs for false positive reduction in pulmonary nodule detection[J]. IEEE Trans Biomed Eng, 2017, 64(7): 1558-1567. DOI:10.1109/TBME.2016.2613502 |
[15] |
Trebeschi S, Drago S, Birkbak N, et al. Predicting response to cancer immunotherapy using noninvasive radiomic biomarkers[J]. Ann Oncol, 2019, 30(6): 998-1004. DOI:10.1093/annonc/mdz108 |
[16] |
Ma Z, Ding Y, Li B, et al. Deep CNNs with robust LBP guiding pooling for face recognition[J]. Sensors (Basel), 2018, 18(11): 3876. DOI:10.3390/s18113876 |
[17] |
Aberle DR, Adams AM, Berg CD, et al. Reduced lung-cancer mortality with low-dose computed tomographic screening[J]. N Engl J Med, 2011, 365(5): 395-409. DOI:10.1056/NEJMoa1102873 |
[18] |
Mahon H, Naidich DP, Goo JM, et al. Guidelines for management of incidental pulmonary nodules detected on CT images: From the Fleischner Society 2017[J]. Radiology, 2017, 284(1): 228-243. DOI:10.1148/radiol.2017161659 |
[19] |
Yang K, Liu J, Tang W, et al. Identification of benign and malignant pulmonary nodules on chest CT using improved 3D U-Net deep learning framework[J]. Eur J Radiol, 2020, 129(23): 109013. |
[20] |
王思斯, 陈明, 孙哲, 等. 非小细胞肺癌生存预测列线图的构建与验证[J]. 实用肿瘤杂志, 2020, 35(4): 327-335. |
[21] |
姜倩倩, 王镭蓉, 于壮. 驱动基因阴性晚期NSCLC抗血管生成治疗进展[J]. 实用肿瘤杂志, 2020, 35(1): 25-29. |