文章信息
- 周行知, 许镭, 林鹏, 叶招明
- Zhou Xingzhi, Xu Lei, Lin Peng, Ye Zhaoming
- 应用MR影像组学特征鉴别长骨内生软骨瘤与软骨肉瘤的研究分析
- Identification of enchondroma and chondrosarcoma in long bone using radiomics features extracted from magnetic resonance images
- 实用肿瘤杂志, 2019, 34(3): 219-226
- Journal of Practical Oncology, 2019, 34(3): 219-226
基金项目
- 浙江省自然科学基金(LY16H160020)
-
作者简介
- 周行知(1993-), 男, 浙江衢州人, 住院医师, 硕士, 从事骨肿瘤基础与临床研究.
-
通信作者
- 叶招明, E-mail: yezhaoming@zju.edu.cn
-
文章历史
- 收稿日期:2019-04-09
内生软骨瘤是发生于髓腔内的良性骨肿瘤,其发病率在骨良性病变中排名第2位[1-2]。软骨肉瘤是第二常见的原发恶性骨肿瘤[3-4]。内生软骨瘤和软骨肉瘤都以手术治疗为主,但手术方式存在很大差异。前者以病灶刮除术及植骨术为主,后者以姑息性切除或广泛性甚至根治性切除手术为主。因此,正确区分内生软骨瘤和软骨肉瘤对临床决策和判断患者预后具有重大意义。然而,由于在组织病理学上具有相似性,正确鉴别两者存在一定难度。
医学影像学可提供对肿瘤组织全貌的观察。目前临床上对内生软骨瘤和软骨肉瘤的鉴别,往往需要在病理的基础上结合影像学检查,但仍缺乏客观的评价标准。影像组学从MR和CT等图像中定量提取特征,将图像转化为可进一步挖掘的数据以协助临床决策[5-8]。近年来, 影像组学已经被广泛用于肿瘤的鉴别诊断、疗效评估及预后分析[7-11]。为此,本研究回顾性分析2011年1月至2018年5月在本院诊断为长骨内生软骨瘤和软骨肉瘤的120例患者,结合MR影像和最终的病理结果,从MR图像中寻找可区分长骨内生软骨瘤与软骨肉瘤的影像组学特征,并探讨这些特征的作用。
1 资料与方法 1.1 一般资料通过电子病历系统(electronic medical record system,EMRS)收集2011年1月至2018年5月期间在浙江大学医学院附属第二医院就诊患者的相关临床资料,包括患者性别、年龄、肿瘤解剖部位以及病理组织学结果。纳入标准:(1)病理诊断为长骨内生软骨瘤或长骨软骨肉瘤的病例;(2)在本院接受MRI扫描。排除标准:(1)同时患有其他肿瘤或出现肿瘤远处转移;(2)行影像学检查前已接受放疗或化疗;(3)继发性软骨肉瘤。
依照纳入和排除标准,最终纳入120例患者,其中男性57例,女性63例;年龄8~84岁,平均年龄49.9岁,中位年龄50岁。120例患者包括50例软骨肉瘤和70例内生软骨瘤。软骨肉瘤和内生软骨瘤患者的临床资料见表 1。
临床特征 | 内生软骨瘤 | 软骨肉瘤 |
例数 | 70 | 50 |
性别 | ||
男 | 27 | 29 |
女 | 43 | 21 |
年龄(x±s,中位数,岁) | 44.2±13.9(49.5) | 51.0±21.7(58.5) |
部位 | ||
股骨 | 35 | 31 |
肱骨 | 26 | 8 |
胫骨 | 5 | 7 |
腓骨 | 4 | 1 |
其他 | 0 | 3 |
纳入研究的患者均于本院接受统一标准的MRI扫描。所有MRI扫描均使用德国西门子公司生产的同型号的1.5T MRI扫描仪,所有患者扫描序列中均包含T1加权图像。
1.3 影像组学方法 1.3.1 肿瘤区域分割从本院医学影像存档与通讯系统(picture archiving and communication systems,PACS)导出MR图像文件,并以医疗数位影像传输协定标准(digital imaging and communications in medicine,DCM)格式保存。使用ITK-SNAP软件[12],对所有入选患者的T1加权MR图像中肿瘤区域,即感兴趣区域(region of interest,ROI)进行分割(图 1)。ROI分割工作由1位骨科医师在1位放射科医师和1位骨科医师指导下完成。
![]() |
图 1 肿瘤T1加权MR图像ROI分割 Fig.1 ROI segmentation of tumor T1-weighted MR images |
为消除不同的图像采集序列对图像特征值的影响,在特征提取前对图像进行预处理,包括图像像素的重采样和灰度级的归一化。图像经预处理后,即可用从中提取的影像组学特征代表该肿瘤区域。图像像素重采样是指对所有患者的图像进行采样,以得到一致的像素尺寸,本研究的采样标准为1 mm×1 mm×4 mm。灰度级的归一化是指将所有图像的灰度值量化为同一灰度范围,本研究的灰度范围统一为1~64级。
1.3.3 影像组学特征提取影像组学特征的提取使用MATLAB 2015b软件(MathWorks, 美国)[13-14]。所有提取的影像组学特征组成特征池[15]。本研究中特征池可分为灰度统计特征、形态特征、纹理特征和小波特征4类。
灰度统计特征即灰度直方图统计特征,用以描述MR图像体素强度的分布情况(即图像的空间特征),包括能量、熵、峰度、平均值、最大值和最小值。
形态特征用以描述肿瘤区域的形状大小,包括体积、表面积、表面/体积比和球形度等。
纹理特征反映图像排列属性的视觉特征,包括灰度共生矩阵(grey-level co-occurrence matrix,GLCM)、灰度游程矩阵(grey-level run-length matrix,GLRLM)、灰度区域大小矩阵(grey-level size zone matrix,GLSZM)和邻域灰度差矩阵(neighbourhood grey-tone difference matrix,NGTDM)。GLCM计算图像中不同灰度值的像素对的相关性,可以反映关于图像的方向、振幅、间隔和频率的综合信息。GLRLM统计图像中具有相同灰度的条状区域出现的情况,量化图像中运行的灰度级。GLSZM统计图像中具有相同灰度的块状区域出现的情况,量化图像中运行的灰度级。NGTDM统计图像中相邻区域的灰度差。
小波特征通过改变图像中高频与低频信号的比率,增加图像低频信号的信息。设L和H分别是低通和高通滤波器,X为待滤波的图像。对三维的ROI图像在X、Y和Z 3个方向上进行图像滤波,得到XLLL、XLLH、XLHH、XHHH、XHHL、XHLH、XLHL和XHLL 8幅新图像,分解后的图像大小不变且不存在移位。对于每组分解再进行灰度统计特征和纹理特征的获取,使得可获得的特征量成倍增加,从而更全面的量化肿瘤,充分挖掘图像信息。
1.3.4 影像组学特征筛选本研究使用最大相关最小冗余(maximum relevance minimum redundancy,mRMR)特征选择方法。
mRMR使用互信息来度量特征子集合中特征与表型类别之间以及特征之间的相关度:
$ D = \frac{1}{s}\sum_{{x_i} \in s} I \left( {{x_i}, c} \right) $ | (1) |
$ R=\frac{1}{s^{2}} \sum_{x_{i} x_{j} \in s} I\left(x_{i}, x_{j} j\right) $ | (2) |
上式中,S表示特征集合,c是目标类别,I(xi, c)是特征i和目标类别c之间的互信息,I(xi, xj)表示特征i与特征j之间的互信息。令公式(1)中D最大化表示最大化特征子集S中特征与目标类别的相关性,令公式(2)中R最小化表示最小化特征子集S中特征间的互相关性。
假定有2个随机变量x和y,依据其概率密度函数p(x)、p(y)和p(x,y),x与y的互信息可定义为
$ I(x ; y)=\iint p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \mathrm{d} x \mathrm{d} y $ |
多元变量Sm和目标类别C的互信息可定义
$ I\left(S_{m} ; c\right)=\iint p\left(s_{m}, c\right) \log \frac{p\left(s_{m}, c\right)}{p\left(s_{m}\right) p(c)} \mathrm{d} S_{m} \mathrm{d} c $ |
通过将公式(1)和公式(2)根据差准则相结合,最大相关即得出mRMR的特征选择准则:Max(D-R)。在该特征选择标准下,使用前向查找法获得最佳特征子集。首先根据公式(1)找到第1个与目标类别最为相关的特征选入到子集Sm中,剩余的特征同样经过计算后选入。如果m个特征已经在子集Sm中,在数据集{S-Sm}中根据下式选择下一个特征:
$ \max\limits_{x_{i} \in s-s_{m}}\left[I\left(x_{i} ; c\right)-\frac{1}{m} \sum_{x_{j} \in s_{m}} I\left(x_{i} ; x_{j}\right)\right] $ |
在mRMR算法中,采用增量搜索算法获取近似最佳特征子集合。依据mRMR准则的特征选择算法,由于没有学习算法参与,故效率较高。
基于最小冗余最大相关性筛选得出最佳的特征后,使用多变量逻辑回归构建影像组学预测公式模型。
1.4 交叉验证选用四阶交叉验证的方法对模型进行验证,将120例患者随机抽样后平均分为4组,每组30例患者。其中训练集3组共90例,测试集1组30例。随后进行四阶交叉验证——将120例平均分组后,提取所有4组患者的影像组学特征,通过mRMR算法筛选出最佳特征后,使用多变量逻辑回归建立影像组学模型并通过受试者操作特征(receiver operating characteristic,ROC)曲线评估模型的诊断和预测效力,完成第1次交叉验证模型,即一阶交叉验证。同理,重新选取不同的训练集和测试集后重复上述步骤,完成第2、3和4次交叉验证,即二阶交叉验证、三阶交叉验证和四阶交叉验证,最终每组数据都独立作为测试集对模型进行过测试。对四次交叉验证的结果取平均值作为最终的结果。
1.5 统计学分析采用R语言统计软件包进行统计分析。使用ROC曲线进行模型解释和模型预测效力的评估。ROC曲线的绘制和曲线下面积(area under curve,AUC)使用MedCalc(Mariakerke,比利时)软件进行计算。以P<0.05为差异具有统计学意义。本研究的完整影像组学流程见图 2。
![]() |
图 2 影像组学基本流程 Fig.2 Workflow of radiomics |
对120例患者的MR图像分别进行特征提取,最终每例患者共提取492个来自T1加权MR图像的影像组学特征。其中包括7个形态特征、8个一阶统计特征、53个纹理特征(分为22个GLCM特征、13个GLRLM特征、13个GLSZM特征和5个NGTDM特征)以及424个基于小波的纹理特征(小波特征)。四阶交叉验证筛选出的最佳影像组学特征见表 2。
阶次 | 最佳特征 |
一阶验证 | HHH_GLRLM_SRHGE_T1 SZHGE_T1 ZSN_T1 Uniformity_T1 denth_T1 |
二阶验证 | HHL_GLCM_inf2h_T1 LLH_GLCM_entro_T1 LLL_GLCM_corrm_T1 HGZE_T1 cshad_T1 |
三阶验证 | LHL_GLRLM_SRHGE_T1 ZSN_T1 Uniformity_T1 Variance_T1 denth_T1 |
四阶验证 | LLL_GLCM_corrm_T1 SZHGE_T1 ZSN_T1 Entropy_T1 denth_T1 |
通过箱型图的形式分别对四阶交叉验证下有预测价值的最佳影像组学特征进行展示,具体见图 3。
![]() |
注A:一阶验证的最佳特征; B:二阶验证的最佳特征; C:三阶验证的最佳特征; D:四阶验证的最佳特征 图 3 交叉验证的最佳特征 Fig.3 Optimal radiomics features of cross validation |
多变量逻辑回归建立的各阶验证模型公式如下(为简化公式的表述,各特征名称后的“T1”省略)。
一阶验证模型:0.395 35-0.058 56×HHH_GLRLM_SRHGE-0.078 05×SZHGE+0.076 11×ZSN-0.082 78×Uniformity-0.211 83×denth。
二阶验证模型:0.430 23-0.072 36×HHL_GLCM_inf2h-0.079 14×cshad-0.115 25×LLH_GLCM_entro-0.088 79×HGZE+0.173 54×LLL_GLCM_corrm。
三阶验证模型:0.395 35-0.129 80×Variance+10.107 94×ZSN-0.088 14×LHL_GLRLM_SRHGE- 0.059 96×Uniformity-0.121 43×denth。
四阶验证模型:0.372 09+0.068 25×LLL_ GLCM_corrm-0.104 14×SZHGE+0.086 12×ZSN- 0.079 71×Entropy-0.139 04×denth。
2.3 影像组学特征模型的评价四阶交叉验证模型的ROC曲线和AUC结果以及在训练集和验证集中各模型的特异度和敏感度结果如图 4和表 3所示。
![]() |
图 4 四阶验证各模型训练集和测试集的ROC曲线 Fig.4 ROC curves of the training cohort and validation cohort of each cross-validation model |
模型 | 训练集 | 验证集 | |||||||
AUC(95%CI) | 敏感度(%) | 特异度(%) | 标准误 | AUC(95%CI) | 敏感度(%) | 特异度(%) | 标准误 | ||
一阶验证模型 | 0.969(0.907~0.994) | 94.1 | 88.5 | 0.0144 | 0.841(0.658~0.950) | 92.3 | 68.7 | 0.0830 | |
二阶验证模型 | 0.953(0.885~0.987) | 91.2 | 84.6 | 0.0201 | 0.923(0.761~0.989) | 76.9 | 100.0 | 0.0515 | |
三阶验证模型 | 0.977(0.919~0.997) | 97.3 | 91.8 | 0.0125 | 0.879(0.704~0.970) | 80.0 | 94.7 | 0.0833 | |
四阶验证模型 | 0.943(0.871~0.982) | 90.6 | 87.0 | 0.0248 | 0.962(0.817~0.999) | 93.3 | 92.9 | 0.0324 |
因此,从T1加权MR图像中提取492个影像组学特征,通过mRMR方法筛选出13个具有预测效果的最佳影像组学特征,包括HHH_GLRLM_ SRHGE_T1、Entropy_T1、HHL_GLCM_inf2h_T1、LLH_ GLCM_entro_T1、LLL_GLCM_corrm_T1、Uniformity_T1、LHL_GLRLM_SRHGE_T1、SZHGE_T1、HGZE_T1、denth_T1和cshad_T1。随后通过多变量逻辑回归分析建立预测模型,并使用四阶交叉验证。四阶交叉验证训练集和测试集的AUC值分别为(0.961±0.015)和(0.901±0.053)。这提示模型具有较好的诊断和预测效力。
3 讨论本研究探讨一种新方法即基于MR影像组学进行长骨内生软骨瘤和软骨肉瘤的鉴别诊断。CT检查在临床上广为使用,已有多个研究报道CT检查在影像组学中的应用[9, 15-16]。与CT检查等比较,MRI检查具有更好的组织对比度和多维成像能力,而且能更准确地反映肿瘤边界[17-18],因此本研究选择MR图像来提取影像组学特征。由于T1加权图像对解剖结构有良好的观察和识别能力,统一选择轴位T1加权MR图像进行分析。
影像组学的核心过程即通过特征自动化提取算法将影像数据转化为一系列可挖掘的空间特征数据。多种特征的组合形成特征向量,若特征数目为N, 则称为N维特征向量,即高维数据。有悖于常规认识中样本特征向量的维数越高,对样本属性的了解越全面,从而有利于提高分类性能。实际上,维数过高的特征向量给分类性能带来的影响是负面的,冗余特征的数量随着维数的增加而激增。这种不相关冗余特征造成分类性能的退化,数据处理难度增加的情况被称之为维数灾难。少量特征即可完成分类任务。本研究中提取后的MR影像组学特征即具有高维数的特点,因此选择合适的特征选择算法进行降维,对于本研究尤为重要。mRMR是一种基于信息论的经典特征选择算法,其核心思想是最大化特征与分类变量之间的相关性,而最小化特征之间的相关性,从而从特征集合空间中找出具有与目标类别最大相关性并且相互间冗余度最小的m个特征。简言之,mRMR考虑特征和目标类别之间的相关性,避免特征变量之间的冗余。本研究使用mRNR方法将492个影像组学特征缩减为13个潜在的预测特征。笔者认为本研究中通过mRMR获取的影像组学特征是准确的,因为其一般适用于处理组学特征集显著大于样本量的高维数据,避免模型过拟合。
预测模型常存在过度拟合或拟合不足的问题,为了保证模型的稳定性和可靠性,考虑到本研究样本量和数据量,本研究选择进行交叉验证。交叉验证即重复使用数据,将样本数据拆分并组合为不同的训练集和测试集。训练集训练模型,测试集评估模型预测效力。以此基础上可得到多组训练集和测试集,某次训练集中某样本可能在下次成为测试集中的样本,即所谓的“交叉”。样本数量也限制了使用LASSO回归等方法来进行特征筛选。本研究选用k阶交叉验证,以有效避免过学习以及欠学习状态的发生,得到可靠的结果。综合考虑训练集的占比问题和高方差问题,本研究选取k值为4,即四阶交叉验证。
本研究也存在一定的局限性:(1)单中心研究和只选取T1加权图像进行分析,限制研究结论的外推;(2)纳入和排除标准以及单中心研究均可能造成选择偏倚;(3)内生软骨瘤和软骨肉瘤的发病率低,纳入本研究的样本量偏少。样本量少可导致:(1)将数据集分为训练集和测试集时难以做到均匀取样,进而导致训练集/测试集与完整集合之间的偏差;(2)为了避免模型过拟合,选取得价值特征的数量应在样本数量的1/3~1/10。因此可被筛选的具有价值的特征数量受限,可能导致假阳性结果的增多。
笔者认为影像组学特征与肿瘤的临床和病理信息相结合后,可提高临床决策的效力。在今后的研究中,本研究组希望建立一种结合影像组学特征与临床、病理信息的预测模型,在长骨内生软骨瘤与低级别软骨肉瘤,低级别软骨肉瘤与高级别软骨肉瘤间的鉴别诊断中发挥协助临床决策的作用。影像组学的使用应进一步被挖掘,以便在精准医疗的时代更好地协助解决临床问题。
综上所述,本研究通过影像组学的方法从MR T1加权图像中提取出一系列有价值的影像组学特征。利用这些特征建立的预测模型,可以有效鉴别长骨内生软骨瘤与软骨肉瘤,从而协助临床决策的制定。
[1] |
胥少汀, 葛宝丰, 徐印钦. 实用骨科学(下册)[M]. 4版. 北京: 人民军医出版社, 2016: 1725-1736.
|
[2] |
Nojima T, Unni KK, McLeod RA, et al. Periosteal chondroma and periosteal chondrosarcoma[J]. Am J Surg Pathol, 1985, 9(9): 666-677. DOI:10.1097/00000478-198509000-00006 |
[3] |
Murphey MD, Walker EA, Wilson AJ, et al. Imaging of primary chondrosarcoma:radiologic pathologic correlation[J]. Radiographics, 2003, 23(5): 1245-1278. DOI:10.1148/rg.235035134 |
[4] |
Walden MJ, Murphey MD, Vidal JA. Incidental enchondromas of the knee[J]. Am J Roentgenol, 2008, 190(6): 1611-1615. DOI:10.2214/AJR.07.2796 |
[5] |
Gillies RJ, Kinahan PE, Hricak H. Radiomics:images are more than pictures, they are data[J]. Radiology, 2016, 278(2): 563-577. DOI:10.1148/radiol.2015151169 |
[6] |
Lambin P, Leijenaar R, Deist TM, et al. Radiomics:the bridge between medical imaging and personalized medicine[J]. Nat Rev Clin Oncol, 2017, 14(12): 749-762. DOI:10.1038/nrclinonc.2017.141 |
[7] |
Lambin P, Rios-Velazquez E, Leijenaar R, et al. Radiomics:extracting more information from medical images using advanced feature analysis[J]. Eur J Cancer, 2012, 8(4): 441-446. |
[8] |
Aerts HJWL, Velazquez ER, Leijenaar RTH, et al. Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach[J]. Nat Commun, 2014, 5(1): 4006. DOI:10.1038/ncomms5006 |
[9] |
Huang YQ, Liang CH, He L, et al. Development and validation of a radiomics nomogram for preoperative prediction of lymph node metastasis in colorectal cancer[J]. J Clin Oncol, 2016, 34(18): 2157-2164. DOI:10.1200/JCO.2015.65.9128 |
[10] |
Lee G, Lee HY, Park H, et al. Radiomics and its emerging role in lung cancer research, imaging biomarkers and clinical management:state of the art[J]. J Clin Oncol, 2017, 86(1): 297-307. |
[11] |
Wu S, Zheng J, Li Y, et al. A Radiomics nomogram for the preoperative prediction of lymph node metastasis in bladder cancer[J]. Clin Cancer Res, 2017, 23(22): 6904-6911. DOI:10.1158/1078-0432.CCR-17-1510 |
[12] |
Yushkevich PA, Piven J, Hazlett HC, et al. User-guided 3D active contour segmentation of anatomical structures:significantly improved efficiency and reliability[J]. Neuroimage, 2006, 31(3): 1116-1128. DOI:10.1016/j.neuroimage.2006.01.015 |
[13] |
Valli Res M, Freeman CR, Skamene SR, et al. A radiomics model from joint FDG-PET and MRI texture features for the prediction of lung metastases in soft-tissue sarcomas of the extremities[J]. Phys Med Biol, 2015, 60(14): 5471-5496. DOI:10.1088/0031-9155/60/14/5471 |
[14] |
Wu J, Aguilera T, Shultz D, et al. Early-stage non-small cell lung cancer:quantitative imaging characteristics of (18)F fluorodeoxyglucose PET/CT allow prediction of distant metastasis[J]. Radiology, 2016, 281(1): 270-278. DOI:10.1148/radiol.2016151829 |
[15] |
Wu Y, Xu L, Yang P, et al. Survival prediction in high-grade osteosarcoma using radiomics of diagnostic computed tomography[J]. EBioMedicine, 2018, 34(1): 27-34. |
[16] |
Liang W, Yang P, Huang R, et al. A combined nomogram model to preoperatively predict histologic grade in pancreatic neuroendocrine tumors[J]. Clin Cancer Res, 2019, 25(2): 584-594. DOI:10.1158/1078-0432.CCR-18-1305 |
[17] |
Tang LL, Li WF, Chen L, et al. Prognostic value and staging categories of anatomic masticator space involvement in nasopharyngeal carcinoma:a study of 924 cases with MR imaging[J]. Radiology, 2010, 257(1): 151-157. DOI:10.1148/radiol.10100033 |
[18] |
折刚刚, 郝文炯. 磁共振波谱在脑胶质瘤边界确定中的研究进展[J]. 实用肿瘤杂志, 2019, 34(1): 7-10. |