2. 山西省煤炭中心医院 PET/CT中心,山西 太原 030012
2. PET/CT Center of Shanxi Coal Central Hospital, Taiyuan 030012, China
肺癌是目前世界上发病率最高的恶性肿瘤之一,也是男女癌症死亡的主要原因[1]。肺癌的早期检测和诊断在提高治愈率方面起着重要的作用。薄扫CT作为早期肺癌筛查的重要手段,可以大幅度提高肺癌的早期检出率。但是,CT影像的爆炸式增长明显增加了影像医师的阅片量,可能会出现对肺结节的漏检和误判。计算机辅助诊断(computer aided diagnosis,CAD)技术为医师检出和诊断肺部病灶提供了参考依据[2]。在肺癌的计算机辅助诊断过程中,基于CT图像的底层特征的诊断方法虽然在提高诊断准确率、降低漏诊率等方面起到了积极的作用,但是通过计算机获取的图像底层特征与医师描述的肺结节高级语义特征之间存在很大的差别[3]。医师在诊断肺部病灶时主要依据肺结节的医学征象,通过对结节的边缘有无毛刺、分叶、钙化等征象进行诊断。所以本文依据肺结节的9种征象,通过对肺结节图像进行特征提取和哈希映射,在数据库中快速找到具有相同征象的肺部CT图像,从而为医师诊断结节的良恶性提供决策支持。
1 相关工作图像哈希方法[4]是一种快速的图像检索方法,它将图像的高维特征映射到汉明空间,以汉明距离(码间异或)作为相似度度量准则检索图像。最早的图像哈希方法是局部敏感哈希(locality sensitive hashing,LSH)[5],采用随机投影的方式以较高的概率将相似图像映射到同一个桶中,但是难以取得稳定结果。为了获得更好的检索效果,谱哈希(spectral hashing,SH)[6]利用拉普拉斯特征函数对高维数据降维,提高了检索效率。迭代量化哈希(iterative quantization,ITQ)[7]利用主成分分析(principal components analysis,PCA)方法对原始高维数据降维,然后计算量化误差最小的旋转矩阵来生成对应最优旋转矩阵下的二值码。有监督核哈希(supervised hashing with kernels,KSH)[8]通过码内积直接优化汉明距离,大幅度减少了计算量。
鉴于目前对海量医学影像的分析和图像哈希方法的优势,已有学者将哈希方法运用于医学影像检索领域。Jiang等[9]利用监督信息设计基于核函数和多特征融合的监督核哈希框架,实现乳腺病理图像的快速检索;Liu等[10]通过迭代量化锚图哈希方法,将多模态特征映射成紧致的二值码,在汉明空间实现乳腺X射线的检索。
凭借深度学习强大的特征表达能力,基于深度学习的哈希方法应运而生。Liu等[11]以图像对为监督信息,利用卷积神经网络(convolutional neural networks,CNNs)来学习图像紧致的哈希码,实现多媒体图像的快速检索;Yang等[12]在深层网络中设计基于误差损失和哈希函数特性的目标函数,使网络能够同时实现图像检索和分类。
深度学习和哈希方法在图像检索领域表现出巨大的优势,肺结节征象可以帮助医师诊断肺部病灶。为此,本文提出一种基于医学征象和深度学习的图像哈希方法。首先,依据4名权威放射科专家对肺部数据库中9种肺结节征象的注释,将十进制整型征象取值转换成二进制编码,以此来构造训练集准确的二值码。其次,利用卷积神经网络和主成分分析方法提取肺结节的重要语义特征,结合训练集准确的哈希码反向求解哈希函数,提升了哈希函数的表达能力。最后,针对哈希码对图像表示的局限性,本文提出一种基于自适应比特位的检索方法,可以对哈希码相同实际不相似的肺结节图像进行排序,提高了检索精度。
2 算法描述本文提出的基于医学征象和卷积神经网络的肺结节CT图像哈希检索方法主要包括3部分:1)根据9种征象取值构造训练集准确的哈希码;2)提取肺结节征象特征和学习哈希函数;3)基于自适应比特位的相似性检索。基于医学征象和卷积神经网络的肺结节检索过程如图1所示。
肺部图像数据库联盟(lung image database consortium,LIDC)[13]是在整合4名放射科医师对1 018个病例,100多万张CT扫描图像的注释基础上建立的。每个病例对应一个文件夹,包含DICOM序列影像和XML文件的肺结节诊断信息。XML诊断信息包含4名放射科专家对每张CT中出现的结节的定义,医师标注的肺结节诊断信息全面且权威,因此XML文件提供的肺结节标注信息为本文实验所用的肺结节CT图像的准确语义描述提供了标准参考。本文对LIDC数据库提供的XML文件注释信息进行提取,创建包含9种CT征象取值的表结构,如表1所示。
二进制描述符[14]可以将高维的肺结节语义描述映射为紧凑的二值码,对海量肺部CT影像的存储和检索而言,具有存储空间小和匹配速度快的优势。借鉴十进制转换二进制的思想,本文将十进制整型的征象取值转换成紧凑的二值码。根据专家标注的十进制征象取值和二值码的转换方式,按照如图2所示的方式依次读取信息,最终能够获得准确表示语义征象的二值码。
医生在诊断肺部病灶时主要依据肺结节的征象,肺结节征象是医师对肺结节图像的高级语义描述。肺结节特征的详尽表示,是后续保持相似性哈希函数学习的重要前提。文献[15]表明基于CNNs的深层特征在图像检索领域表现出比传统手工设计特征的方法更好的检索效果。文献[16]表明PCA方法在不损失特征质量的前提下还能够保持较高的检索性能,对CNNs更具有弹性。本文首先利用如图3所示的CNNs框架提取肺结节的高维特征,然后使用PCA方法抽取肺结节的重要语义特征。
本文提出基于CNNs的深层次特征提取框架主要包括包括3部分:1)由多个卷积层和全连接层组成的特征提取层;2)用来对9种单一征象进行分类的softmax分类器层。肺结节重要语义特征的提取如算法1所示。
算法1 基于CNNs和PCA的重要语义特征 提取算法
输入 肺结节征象训练集{x1, x2,
输出 肺结节的重要语义特征Y=[x1 x2
1) 将肺结节单一征象集输入到卷积神经网络中,并将网络全连接层输出的肺结节高维表示记为{(x(1), y(2),
2) 通过softmax分类器建立肺结节高维表示X(i)与征象类别之间的概率分布p(y=j|x)。因为一张肺结节图像可能包含k(k>1)种征象,对k种征象的可能值进行累加,同时引入权值衰减项。代价函数可表示为
$\begin{array}{c}J(\theta ) = \displaystyle\frac{k}{n}\left[ {\sum\limits_{i = 1}^n {\sum\limits_{j = 0}^1 {1\left\{ {{y^{(i)}} = j} \right\}} } \log p\left( {{y^{(i)}} = \left. j \right|{x^{(i)}};\theta } \right)} \right] + \\\displaystyle\frac{l}{2}\sum\limits_{i = 1}^k {\sum\limits_{j = 0}^n {\theta _{ij}^2} } \end{array}$ | (1) |
式中:θ为网络参数组合,l为平衡前后两项的影响因子。
3) 优化代价函数,选择最优的参数组合θ对CNNs网络进行调整。去掉调整好网络中的softmax分类器层,将CNNs框架中最后一层的输出作为肺结节的高维特征
4) 计算高维特征矩阵X的PCA映射矩阵
哈希函数必须尽可能地保持哈希前与哈希后样本相似度的一致性,因而哈希函数的选择至关重要。本文借鉴LSH[5]中保持内积相似性哈希函数的构造思想:如果哈希码的长度为k,则需要设计一组包含k个哈希函数的函数族。哈希函数的定义为
${[{h_1} \,\, {h_2} \,\, \cdots \,\, {h_k}]^{\rm{T}}} = {[{\rm{sign}}({\mathit{\boldsymbol{Wx}}} + b)]^{\rm{T}}}$ | (2) |
式中:x为肺结节的特征,W为系数向量,b为偏差,本文使用PCA处理,所以b的值为0,哈希函数可简化为
$h({\mathit{\boldsymbol{x}}};{\mathit{\boldsymbol{w}}}) = {\rm{sign}}({{\mathit{\boldsymbol{w}}}^{\rm{T}}}{\mathit{\boldsymbol{x}}})$ | (3) |
为了求解系数,本文在目标函数的设计中,加入哈希函数的约束条件和量化误差,目标函数可表示为
$\mathop {\min }\limits_{\mathit{\boldsymbol{w}}} O = \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^k {({\rm{sign}}({\mathit{\boldsymbol{w}}}_j^{\rm{T}}{x_i}) \oplus {y_{ij}})} } $ | (4) |
约束条件:
${{\mathit{\boldsymbol{h}}}_i} = {\{ - 1,1\} ^k}$ | (5) |
$\sum\limits_i {{{\mathit{\boldsymbol{h}}}_i}} = 0$ | (6) |
$\frac{1}{n}\sum\limits_i {{{\mathit{\boldsymbol{h}}}_i}} {\mathit{\boldsymbol{h}}}_i^{\rm{T}} = {\mathit{\boldsymbol{I}}}$ | (7) |
式中:hi=sign(WTx)∈Rk为哈希码的映射值,Y=[y1 y2
式(4)是通过最小化目标函数求解系数矩阵
虽然将图像特征映射为哈希码可以加快检索速度,但是哈希码对原始图像的表示有一定的局限性。如图4所示,不同的特征被映射成相同的哈希码,单纯使用汉明距离度量图像间的相似性不够准确[17]。如果为查询图像的不同码位自适应地分配不同的权值,避免所有码位权值相同对汉明距离的影响,就可以提高检索性能。为此,本文提出基于自适应比特位的检索方法,具体描述如算法2所示。
算法2 基于自适应比特位的检索算法
输入 待查询结节图像xp,对应的哈希码hq={hq(1), hq(2),
输出 最近似肺结节图像xp。
1)根据式(8)~(9)计算查询结节与图像库间的汉明距离,选择汉明距离最小的前ρ个图像得到肺结节候选集I。
${D_H}({h_q},{h_i}) = \sum\limits_{i = 1}^n {({u_i} \ne {v_i})} $ | (8) |
$I = \{ {x_1},{x_2},\cdots,{x_\rho }\} \leftarrow {\rm{sort}}({D_H},'{\rm{descend}}')$ | (9) |
2)计算待查询结节的每一位哈希码的权值
初始化权值向量
for j=1:ρ
for k=1:K
判断待查询结节图像的第k位哈希码和图像库第i幅图像的哈希码是否相同
如果相同,
否则,
End for
End for
3)根据式(10)计算待查询结节与候选集I之间的加权汉明距离。
$d({h_q},{h_I}) = \sum {_{i = 1}^k(\varpi \left| {h{q_i} - h{I_i}} \right|)} $ | (10) |
4)选择距离最小的数据项作为最近似结节。
本文方法的实验环境是Visual Studio 2010,MATLAB 2012b,PC处理器为Intel Core i7-3770,主频3.40 GHz,内存8 GB。用于研究的肺部CT图像数据来自公共数据集LIDC和山西某医院(已与医院签订相关协议,且已征得患者的同意),该医院使用的是美国通用公司的Discovery ST16 PET-CT,CT采集参数为150 mA、140 kV,层厚3.75 mm,CT图像大小为512×512。
为了验证本文方法的有效性,实验所用的CT数据集是在专业医师的标注下,利用基于超像素[18]和自生成神经森林的肺实质分割算法[19]从肺实质中截取的大小为48×48的矩形区域,如图5所示。为了保证训练集和测试集的无关性,本文从LIDC数据库中选取了包含9种单一征象的156例数据(2 669个肺结节)的图像集作为训练集,来自合作医院的50例数据(796个结节)的图像集作为测试集。
为了验证本文方法的性能,实验使用平均准确率MAP(mean average precision),查准率P@K,召回率R@K 3个指标,和5种常用的哈希算法(包括LSH、SH、PCA、ITQ、KSH)对本文提出的方法进行评价。
MAP反映的是在所有相似结节中的检索性能,相似结节在检索结果中的排序越靠前,MAP值就越大。P@K反映的是在检索到的前K个结节中,和查询结节相似的结节出现的概率。R@K反映的是相似结节在检索到的前K个结节中,与所有相似结节的比值。相关公式的定义为
${\rm{MAP}}\left( q \right) = \frac{1}{q}\sum\limits_{j = 1}^{\left| q \right|} {\frac{1}{{{m_j}}}} \sum\limits_{k = 1}^{{m_j}} {\frac{k}{{{R_{jk}}}}} $ | (11) |
$P@K = \frac{{\# \left\{ {{\rm{similar}}\;{\rm{lung}}\;{\rm{nodules}}\;{\rm{images}}\;{\rm{in}}\;{\rm{top}}\;{\rm{k}}\;{\rm{results}}} \right\}}}{k}$ | (12) |
$R@K = \frac{{\# \left\{ {{\rm{similar}}\;{\rm{lung}}\;{\rm{nodules}}\;{\rm{images}}\;{\rm{in}}\;{\rm{top}}\;{\rm{k}}\;{\rm{results}}} \right\}}}{{\# \left\{ {{\rm{all}}\;{\rm{similar}}\;{\rm{lung}}\;{\rm{nodules}}\;{\rm{images}}} \right\}}}$ | (13) |
为了得到精确的检索效果,本文首先对本文方法中的参数λ和ρ进行讨论。
图6所示为不同编码长度下前5个检索结果的排序精度,其中λ的取值范围为0.1~1,阈值ρ的取值分别为5、10、15、20和25。由图6(a)可知,当ρ为15时检索精度达到最大值;当λ为0.2和0.3时,本文方法具有较高的检索精度。由图6(b)和6(d)可知,当ρ为15时检索精度最高;随着λ的增大,检索精度值变化不明显。由图6(c)可知,检索精度随着λ的改变变化很小。因此,本文在自适应比特位检索方法中将参数λ和阈值ρ分别设置为0.3和15。
为了比较不同编码长度对检索效果的影响,使用查全率-查准率(Recall-Precision)来衡量本文方法的性能。
本文在文献[5-12]的基础上选取编码长度为12 b、24 b、32 b、48 b、64 b、和72 b的6组值。图7分别展示了不同编码长度下,P-R曲线的比较结果,可以看出本文方法的检索性能随着编码长度的增加而提高,当r=64 b时,性能趋于稳定。一方面,CNNs提取的是肺结节的高层特征,对肺结节的描述越全面,检索准确性就越高;另一方面,肺结节图像是灰度图像,用较短的哈希码就可以表示,加快了匹配速度。
表2列出了本文方法与其他哈希方法在不同特征下随着编码长度的增加,所对应的平均准确率(MPA)实验结果。
对比表2中CNNs特征与GIST特征的实验结果,可以看出基于CNNs特征的检索方法具有明显优势。本文使用的CNNs特征在不同编码长度下一直拥有最高的MPA值,与GIST特征(手工设计)相比,效果分别提升了4.6%、9.2%、11.6%、13%、12.5%、11%。进一步验证了从肺结节底层图像到高层语义中逐层提取的CNNs特征对检索结果的有效性。
为了评估本文方法的有效性,使用P@K比较检索结果中前5个相似结节的精确度。
图8所示是两种方法在不同编码长度下,在检索到的15个相似结节图像中P@K=5的对比结果。随着编码长度的增加,两种方法在前5个检索结果下的精确度都有所提高。当r=64 b时,本文方法在检索到的前5个肺结节图像中,精确度达到88.23%,高于传统方法23.41%。之后随着编码长度的增加,两种方法的准确率都有所降低。从图中可以看出,本文方法与汉明直接排序的方法相比,显著提高了肺结节的检索精确率。
本文提出一种基于医学征象和CNNs的肺结节CT图像哈希方法,用于实现肺结节CT图像的快速检出。本文方法的主要贡献有:1)利用卷积神经网络和主成分分析法提取肺结节的重要语义特征,能更有效地表示肺结节含有的征象信息;2)通过构造征象训练集准确的哈希码和肺结节的重要语义特征反向求解哈希函数;3)为了进一步提高检索精度,使用自适应比特位的加权汉明距离代替传统的汉明距离。本文对公共数据集LIDC和医院数据集进行实验,验证了本文方法在肺结节图像检索过程中的有效性。未来的工作将研究基于深度哈希的肺结节图像检索,以提高结节图像的检索精度,从而进一步为医师诊断肺部病灶提供参考依据。
[1] | REBECCA L, KIMBERLY D M, STACEY A F, et al. Cancer statistics[J]. CA: a cancer journal for clinicians, 2017, 67(3): 177. (0) |
[2] | ZHAO Y, BOCK G H D, VLIEGENTHART R, et al. Performance of computer-aided detection of pulmonary nodules in low-dose CT: comparison with double reading by nodule volume[J]. European radiology, 2012, 22(10): 2076. (0) |
[3] | CHEN S, NI D, QIN J, et al. Bridging computational features toward multiple semantic features with multi-task regression: a study of CT pulmonary nodules[M]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2016. Springer International Publishing, 2016: 53–60. (0) |
[4] | VADLAMUDI L N, VADDELLA R P V, DEVARA V. Robust image hashing technique for content authentication based on DWT[C]//Proceedings of International Conference on Computer Vision and Image Processing. Singapore: Springer, 2017: 189–191. (0) |
[5] | GIONIS A, IINDYK P, MOTWANI R. Similarity search in high dimensions via Hashing[C]//International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc. 2000: 518–529. (0) |
[6] | WEISS Y, TORRALBA A, FERGUS R. Spectral Hashing[J]. Proc nips, 2008, 282(3): 1753-1760. (0) |
[7] | GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(12): 2916-29. (0) |
[8] | LIU W, WANG J, JI R, et al. Supervised hashing with kernels[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA, 2012: 2074–2081. (0) |
[9] | JING M, ZHANG S, HUANG J, et al. Joint kernel-based supervised hashing for scalable histopathological image analysis[C]//Medical Image Computing and Computer-Assisted Intervention 2015. Springer International Publishing, 2015, 1: 558–560. (0) |
[10] | LIU J, ZHANG S, LIU W, et al. Scalable mammogram retrieval using composite anchor graph hashing with iterative quantization[J]. IEEE transactions on circuits and systems for video technology, 2016(99): 1–1. (0) |
[11] | LIU H M, WANG R P, SHAN S, et al. Deep supervised hashing for fast image retrieval[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 2064–2072. (0) |
[12] | YANG H F, LIN K, CHEN C S. Supervised learning of semantics-preserving hash via deep convolutional neural networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2015(99): 1–1. (0) |
[13] | ARMATO S, MCLENNAN G, MCNITTt-GRAY M, et al. WEB201B02: the lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed public database of CT scans for lung nodule analysis[J]. Medical physics, 2010, 37(6): 3416-3417. (0) |
[14] | YANG X, CHENG K T. Local difference binary for ultrafast and distinctive feature description[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(1): 188-94. (0) |
[15] | TARANDO S R, FETITA C. Increasing CAD system efficacy for lung texture analysis using a convolutional network[C]//Proceedings of SPIE 9785, Medical Imaging. San Diego, USA, 2016: 97850Q. (0) |
[16] | BABENKO, SLESAREV A, CHIGORIN A, et al. Neural codes for image retrieval[M]. Springer International Publishing, 2014: 584–599. (0) |
[17] | FU H, KONG X, WANG Z. Binary code reranking method with weighted hamming distance[J]. Multimedia tools and applications, 2016, 75(3): 1391-1408. (0) |
[18] |
王超, 王浩, 王伟. 基于优化ROI的医学图像分割与压缩方法研究[J]. 重庆邮电大学学报: 自然科学版, 2015, 27(2): 279-284. WANG Chao, WANG Hao, WANG Wei, et al. Study of optimized ROI based medical image segmentation and compression method[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2015, 27(2): 279-284. (0) |
[19] | LIAO X, ZHAO J, CHENG J, et al. A segmentation method for lung parenchyma image sequences based on superpixels and a self-generating neural forest[J]. Plos one, 2016, 11(8): e0160556. (0) |