2. 中国科学院半导体研究所 人工神经网络实验室, 北京 100083
2. Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China
根据研究对象的不同,现有的图像检索[2]技术主要有以下3类:基于文本图像检索、基于内容图像检索以及基于语义的图像检索。基于文本的图像检索最初采用的方法是人工标注图像并用标注进行检索。一旦标注非常完整适当的话,检索速度和效果都会非常好,但是随着现在数字图像数量剧增,人工标注的工作量非常大[3],而且人工对图像的描述带有主观偏差,所以为了克服基于文本检索的这一缺点,提出基于内容图像检索(content-based image retrieval ,CBIR)[3]。在过去的几十年里,基于内容的图像检索受到了广泛的关注,尤其是2000年后,该方法获得极大的发展[4]。传统基于内容的图像检索技术通常采用一些简单的图像特征,例如颜色、形状和纹理特征来描述待检索图像的视觉内容,而且已经开发出若干CBIR系统。陈晨[5] 、梁美丽[6] 、宋卫华[7] 等分别提出了基于颜色、综合颜色和纹理的、基于底层纹理特征的CBIR系统,基本都是利用图像的以上3个特征来进行检索,而这显然是不够的,对图像的检索率仍有待进一步提高,而且图像相似性度量也影响其性能,所以检索系统需要融合图像高层语义功能。基于语义图像检索就是要建立图像低层特征到高层语义的映射,其需要融合模式识别、人工智能等多个知识领域[8],难度也是非常大的。曹建芳等[9]、庄凌等[10]、H. Xie等[11]分别提出一种基于颜色、纹理和形状3种语义特征的图像检索方法、一种基于稀疏典型性相关分析的图像检索方法、和视觉文本级和视觉图像级的上下文查询扩展的图像检索方法;AlexPapushoy等[12]提出了基于显著内容查询的图像检索算法(QSCR),该方法基于人类视觉专注模型,提出了从图像局部到图像全局的自下从上的图像检索方法;M.Zand等[13]提出了一种纹理分类区别的区域图像检索方法,该方法将Gabor小波和曲波应用到经过转换得到的规则形状图像区域中,然后应用拟合方法来编码创建能反映图像最大纹理区别的特征;E.Walia等[14]通过结合所有低层特征,提出了一种新颖、快速、高效的混合框架来进行彩色图像检索,通过颜色矩、角径向变换描述和边缘直方图描述分别得到图像的颜色、形状和纹理信息。但以上这些方法都是从逻辑思维的角度解决图像检索的问题,而且大部分基于图像细节来进行图像检索。然而人们认知图像时,往往不需要得到很细致的图像细节就能判断出图像属于哪一类,因此图像检索是一个形象思维的问题。那么用逻辑思维的定理、推论等手段的逻辑思维方法,很难反映图像检索认知过程的本质性,而形象思维是人的一种本质思维方式[15],通过人本身的感官来认识图像信息。因此根据人形象思维对图像检索的认知,王守觉院士等[1]提出的一种基于仿生形象思维方法的图像检索算法,结合了高维仿生信息技术的几何分析方法来提取图像特征。此算法与图像分割算法、图像自动语义索引系统(automatic linguistic indexing of pictures,ALIP)和HSV空间颜色距离算法比较在检索效率和检索速度上都具有优越性[1],但是和人认知图像还是有一定距离的。本文在此基础上,根据图像颜色复杂度来提取图像特征,对此算法做进一步研究,并且和其他传统基于颜色图像检索算法进行比较。实验表明在颜色空间统计颜色复杂度来提取图像特征,其检索图像的效果优于其他基于颜色图像检索算法。
1 图像检索算法原理文献[1]十分详细地介绍了基于仿生形象思维方法的图像检索算法原理,本文在此做简单的介绍。其理论基础就是基于人们对图像视觉反应的以下几个特点发展得到的[1]:
1)人们在对图像种类进行辨识的时候,并不需要看清楚图像的细节就能分清楚图像是风景照还是人物照等,可见对图像的宏观分类,重点在图像的大粒度信息。
2)如果把一幅图像分块,比如一幅风景图像,将图像上的山、水、房屋、树木等细节进行分块,但是如果把它们在水平方向互相调换位置,人们还是一样能辨识这幅图像属于风景类。由此提出图像分块参数排序的位置不变性概念,称为分块参数排序解决位置不变性方法(order-based block features method,OBFM)。
3)当人们在宏观观看一张图像时,如果把它从反面看,则变化的感觉和反过面来旋转轴的方向有关,旋转轴为横向和纵向的效果是不对称的。
根据人们对图像视觉的以上3个特点,基于高维仿生信息技术[16, 17, 18, 19],文献[1]提出一种新的图像检索算法,其算法的主要步骤如下:
1) 图像分块
一个 m×n 的原图像数组的矩阵形式为
在高维仿生信息技术中即为 m×n 维空间中的一个点,用数学符号 A(m×n) 来表示。
将原图像分块,成 M×N 个子块,则图像子块形式为
又有,即每一图像子块在高维仿生信息技术中即为 h×k 维空间中的一个点,故原图像转化为 h×k 维空间中的 M×N 个点,表示为 Bi(h×k)(i=1,2,…,M×N) 。
2)子块的特征提取
对 h×k 维空间中的点 Bi(h×k)(i=1,2,…,M×N),用形象思维方法和高维空间几何分析方法[20]进行几何映射即特征提取,找到一个维数为 u 的特征空间记为 Ru=p1,p2,…,pM×N,使得 u 维特征空间中的 p1,p2,…,pM×N 能与原图像信息融合,u<(h×k) 。
3)特征空间点排序
把 u 维特征空间中的 p1,p2,…,pM×N 各点在水平方向,每一维特征按照特定规则排序。得到了 u 维特征空间中新的点序列 q1,q2,…,qM×N 。
4)将此序列按照水平到垂直的顺序合成 v 字节的特征数据,至此完成了对一幅图像的特征提取。
5)图像匹配
每幅图像都转化成高维空间中维数为 v 的一个点。那么利用高维形象几何方法,判别样本图像和图像库中图像之间距离就是分析 v 维特征空间中的点与点的关系。本文并不是简单的计算 v 维特征空间中点与点之间的欧式距离来作为判别的依据,而是用函数 θ 来计算样本图像与图像库中每一幅图像的相似距离。因而图像类似判别函数为
式中: 1) Q1、Q2 为样本图像和要判别的图像的 v 维特征向量。2) S 为阈值,可根据实验设定:
T=1 时样本图像和要判别的图像为类似图像,反之则不是。3)函数 θ 的计算公式为
2 一种新的图像子块特征提取方法文献[1]中对图像子块特征提取主要分析的是像素点与周围相邻像素点色度与亮度的复杂度,仅提取了图像在微观上的特征,没有分析图像子块各颜色分量的统计信息,即宏观上的特征。本文在文献[1]的基础上,对图像子块的颜色矩进行统计来提取图像宏观的颜色特征,对文献[1]基于仿生形象思维方法的图像检索算法做进一步研究与改进。
颜色特征是最常用的底层特征,它给人以最直观的视觉感受,是能最直接地描述物体或图像内容的视觉特征。颜色特征通常对噪声、尺寸的缩放、旋转等具有很强的鲁棒性。因此基于颜色特征的图像检索技术也是目前为止较成熟、应用最广泛的一种CBIR技术[20]。颜色特征的描述方法主要有颜色直方图、累加直方图、其他各种变形的颜色直方图、颜色矩和颜色聚合向量等。颜色直方图是图像检索系统应用最为广泛的颜色特征,然而理论分析和实验结果表明,其存在丢失颜色空间分布信息,特征维数过高等问题[21, 22]。本文首先选取颜色矩作为颜色特征的描述方法。
颜色矩是Stricker和Orengo提出的一种简单而有效的颜色特征,这种方法的数学基础是图像中任何的颜色分布均可以用它的矩来表示[23]。同时,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(均值,Mean)和二阶矩(方差,Variance)就可以表达图像的颜色分布。与颜色直方图相比,该方法的一大显著优点就是无须对提取出来的特征进行量化,是一种简单有效的颜色特征提取方法。
颜色的2个低阶矩在数学上的表达如下:
式中: pi,j 表示的是图像中第 j 像素的第 i 个颜色分量。本文选择最简单的RGB颜色空间,对于RGB颜色空间一共就6个值。相对于其他颜色特征而言,采用颜色矩表示颜色特征是一个非常紧凑的表示方法。
和文献[1]一样,分析各子块像素点与其周围相邻8个像素点之间的颜色差异复杂度,这样从宏观到微观都提取出图像的颜色特征,然后按照一定的顺序排序得到图像最后的颜色特征。
3 试验结果与分析本文实验同样使用COREL图像数据库约900幅彩色图像,包恐龙、汽车、风景图、大象、房屋、花等10类。方便和传统的基于颜色特征算法和文献[1]中算法进行比较。首先分析图像分块时,纵横方向不同的子块数量对应的检索查准率,结果如表 1。
% | |||||||||
图片类型 | 纵横分块 | ||||||||
4×4 | 4×6 | 4×8 | 6×4 | 6×6 | 6×8 | 8×4 | 8×6 | 8×8 | |
马 | 67.01 | 69.62 | 72.15 | 70.89 | 72.15 | 69.62 | 74.68 | 70.89 | 73.42 |
大象 | 60.71 | 64.29 | 63.01 | 67.86 | 66.67 | 69.05 | 69.05 | 71.43 | 70.24 |
花 | 74.43 | 81.32 | 79.12 | 83.52 | 76.92 | 86.81 | 78.02 | 84.62 | 84.62 |
食物 | 63.49 | 68.25 | 65.08 | 63.49 | 68.25 | 63.49 | 65.08 | 68.25 | 68.25 |
风景图 | 46.88 | 48.44 | 50 | 53.13 | 53.13 | 50 | 50 | 53.13 | 54.69 |
恐龙 | 94.95 | 97.98 | 97.98 | 94.95 | 97.98 | 99.00 | 100 | 100 | 100 |
汽车 | 70.1 | 72.17 | 70.10 | 61.86 | 62.89 | 67.01 | 68.04 | 68.04 | 67.01 |
人 | 65.31 | 67.35 | 73.47 | 67.35 | 63.27 | 65.31 | 63.27 | 69.39 | 73.47 |
房屋 | 30 | 38.57 | 34.29 | 32.86 | 34.29 | 35.71 | 41.43 | 42.88 | 42.86 |
大海 | 48.10 | 49.37 | 49.37 | 51.90 | 50.63 | 51.90 | 53.17 | 46.84 | 53.16 |
平均值 | 62.10 | 65.74 | 65.46 | 64.78 | 64.62 | 65.79 | 66.27 | 67.55 | 68.77 |
如表 1所示,发现检索准差率最高的大部分都在纵方向和横方向都分成8块中,所以用纵横分块8×8和其他的基于颜色的传统方法做比较。试验结果如表 2。
如表 2所示,本文算法在马、花、恐龙图像类上提高不大,主要是因为,这3类图都是背景简单主体非常明显的图,这类图片用统计颜色直方图的方法,由于其空间分布信息丢失影响不大,所以效果不错。但是在对一些图片背景复杂,主体多元的情况下,由于空间分布信息丢失比较大,那么统计颜色直方图的算法效果就不好,而本文算法在这类图片上检索效果优于基于颜色直方图统计的算法。由此可见,基于形象思维图像检索算法在处理一些复杂图片检索问题时是有效且可行的,其提取图像特征的算法并没有损失图像空间分布信息,而恰恰利用图像颜色分布空间信息,且从宏观到微观上提取图像颜色特征。
4 结束语由上面试验结果可见,在颜色空间统计各颜色复杂度来提取图像特征,利用仿生形象思维方法来检索图像的效果优于其他算法。仿生形象思维方法的图像检索更接近人类搜索图像信息的本质特征,使得检索结果有很好地提高。而颜色是最直接地描述图像内容的视觉特征,提取颜色特征更能与图像信息融合。所以通过提取图像颜色空间特征,利用仿生形象思维方法的图像检索技术在图像检索领域是可行且有效的。为了进一步提高本文算法的检索查准率,后期将深入开展将仿生形象思维方法结合颜色、纹理、形状等信息来对图像进行更准确检索的研究,同时要研究在保证查准率的同时,如何提高算法的检索速度。
[1] | 王守觉, 孙华. 基于仿生形象思维方法的图像检索算法[J]. 电子学报, 2010, 38(5): 993-997.WANG Shoujue, SUN Hua. An image retrieval algorithm based on biomimetic imaginal thinking[J]. Acta Electronica Sinica, 2010, 38(5): 993-997. |
[2] | DATTA R, LI J, WANG J Z. Content-based image retrieval—approaches and trends of the new age[C]//Proceedings of the Seventh International Workshop on Multimedia Information Retrieval. Singapore, 2005: 253-262. |
[3] | 黄祥林, 沈兰荪. 基于内容的图像检索技术研究[J]. 电子学报, 2002, 30(7): 1065-1071. HUANG Xianglin, SHEN Lansun. Research on content-based image retrieval techniques[J]. Acta Electronica Sinica, 2002, 30(7): 1065-1071. |
[4] | VELTKAMP R C, TANASE M. Content-based image retrieval systems: a survey,UU-CS-2000-34[R]. Department of Computer Science, Utrech University, 2002. |
[5] | 陈晨. 基于颜色直方图的图像检索[J]. 哈尔滨师范大学自然科学学报, 2014, 30(2): 31-35.CHEN Chen. Image retrieval based oil color histogram[J]. Natural Sciences Journal of Harbin Normal University, 2014, 30(2): 31-35. |
[6] | 梁美丽, 牛之贤. 改进的综合颜色纹理特征图像检索[J]. 计算机应用与软件, 2014, 31(6): 228-231.LIANG Meili, NIU Zhixian. Improved image retrieval with integrated colour and texture features[J]. Computer Applications and Software, 2014, 31(6): 228-231. |
[7] | 宋卫华. 基于底层纹理特征的图像检索[J]. 长春工业大学学报: 自然科学版, 2014, 35(2): 135-138.SONG Weihua. Image retrieval based on low-level texture features[J]. Journal of Changchun University of Technology: Natural Science Edition, 2014, 35(2): 135-138. |
[8] | 黄祥林, 沈兰荪. 基于内容的图像检索技术研究[J]. 电子学报, 2002, 30(7): 1065-1071.HUANG Xianglin, SHEN Lansun. Research on content-based image retrieval techniques[J]. Acta Electronica Sinica, 2002, 30(7): 1065-1071. |
[9] | 曹建芳,陈俊杰,赵青杉. 基于多语义特征融合的图像检索[J]. 计算机技术与发展, 2014, 24(5): 134-138.CAO Jianfang, CHEN Junjie, ZHAO Qingshan. Image retrieval based on various semantic feature fusion[J]. Conputer Technology and Development, 2014, 24(5): 134-138. |
[10] | 庄凌,庄越挺,吴江琴, 等. 一种基于稀疏典型性相关分析的图像检索方法[J]. 软件学报,2012,23(5): 1295-1304.ZHUANG Ling, ZHUANG Yueting, WU Jiangqin, et al. Image retrieval approach based on sparse canonical correlation analysis[J]. Journal of Software, 2012, 23(5): 1295-1304. |
[11] | XIE H, ZHANG Y. Contextual query expansion for image retrieval[J]. IEEE Transactions on Multimedia, 2014, 16(4): 1104-1114. |
[12] | PAPUSHOY A , BORS A G. Image retrieval based on query by saliency content[J]. Digital Signal Processing, 2015, 36: 156-173. |
[13] | ZAND M, DORAISAMY S. Texture classification and discrimination for region-based image retrieval[J]. Journal of Visual Communication and Image Representation, 2015, 26: 305-316. |
[14] | WALIA E, VESAL S. An effective and fast hybrid framework for color image retrieval[J]. Sensing and Imaging, 2014, 15(1): 93-115. |
[15] | GUPTA A, JAIN R. Visual information retrieval[J]. Communications of the ACM, 1997, 40(5): 71-79. |
[16] | 王守觉, 来疆亮. 多维空间仿生信息学入门[M]. 北京:国防工业出版社, 2008: 1. |
[17] | 王守觉. 仿生模式识别(拓扑模式识别)——一种模式识别新模型的理论与应用[J].电子学报, 2002, 30(10): 1417-1420.WANG Shoujue. Bionic (topological) pattern recognition— a new model of pattern recognition theory and its applications[J]. Acta Electronica Sinica, 2002, 30(10): 1417-1420. |
[18] | 王守觉, 王柏南. 人工神经网络的多维空间几何及其理论[J]. 电子学报, 2002, 30(1): 1-4.WANG Shoujue, WANG Bainan. Analysis and theory of high dimensional space geometry for artificial neural networks[J]. Acta Electronica Sinica, 2002, 30(1): 1-4. |
[19] | WANG Shoujue, LAI Jiangliang. High dimensional imagery geometry and its applications[J]. Chinese Journal of Electronics, 2006, 15(4): 761-767. |
[20] | 李志欣, 施智平. 图像检索中语义映射方法综述[J]. 计算机辅助设计与图形学学报, 2008, 20(8): 1085-1096.LI Zhixin, SHI Zhiping. A survey of semantic mapping in image retrieval[J]. Journal of Computer-Aided Design and Computer Graphics, 2008, 20(8): 1085-1096. |
[21] | DATTA R, LI Jia, WANG J Z. Content-based image retrieval-approaches and trends of the new age[C]//Proceedings of the 7th International Workshop on Multimedia Information Retrieval. Singapore, 2005: 253-262. |
[22] | 于永健, 王向阳, 吴俊峰. 基于颜色复杂度的加权颜色直方图图像检索算法[J]. 小型微型计算机系统,2009, 30(3): 507-511. YU Yongjian, WANG Xiangyang, WU Junfeng. Weighted histogram color image retrieval based on color complexity measure[J]. Journal of Chinese Computer Systems, 2009, 30(3): 507-511. |
[23] | 成琳, 陈俊杰, 相洁. 图像颜色特征提取技术的研究与应用[J]. 计算机工程与设计, 2009, 30(14): 3451-3454. CHENG Lin, CHEN Junjie, XIANG Jie. Research and application of image color feature extraction technology[J]. Computer Engineering and Design, 2009, 30(14): 3451-3454. |