2. 广西高校图像图形智能处理重点实验室, 广西 桂林 541004
2. Guangxi Colleges and Universities Key Laboratory of Intelligent Processing of Computer Images and Graphics, Guilin 541004, China
基于内容的图像检索是通过对图像内容的分析来搜索相似的图像,近些年一直被多媒体研究者广泛地研究。随着该研究领域的发展,虽然出现了许多新技术,但由于机器获得的低水平图像像素和人类接受的高水平语义概念之间存在语义鸿沟问题,因此在当前基于内容的图像检索研究中从人类的感知方面把像素水平的信息和语义信息联系起来仍然是最具有挑战的问题[1, 2]。近些年,研究者们使用了一些人工视觉特征去表示图像[3, 4],但基于这些人工特征的图像检索方法的性能一直不是很好。
这些挑战来源于人工智能的根本难题。而机器学习是一个很有前景的技术,可以解决这个长期的挑战。深度学习作为机器学习发展的一个分支,其动机在于建立模拟人脑进行分析学习的神经网络,通过组合低层特征形成更加抽象的高层特征,模仿人脑的机制来解释数据,如图像、声音、信号和文本,近些年已得到广泛应用[5, 6, 7]。
卷积神经网络(convolutional neural network,CNN)是人工神经网络的一种,由于它的权值共享结构和生物神经网络更类似,可以减少权值的数量,从而降低网络模型的复杂度,现已成为深度学习中的一个研究热点。目前,CNN已经应用到视频中的人体动作识别信号重构、人脸等目标检测识别、图像分类等各个领域[8, 9, 10, 11]。
鉴于CNN的这些进步,我们可以在图像检索中利用它的优点来提高检索性能。
1 相关工作最近邻搜索是机器学习算法的一个基本步骤。近些年,网上可使用的数据快速增加,而且数据很容易就达到几百或几千维度,因此,在这样一个巨大的数据集上进行穷极线性搜索是不可行的。但是,在一些应用中,寻找近似最近邻(approximate nearest neighbor,ANN)却是十分有效的,其中基于树的方法和哈希方法是两个流行的框架。而哈希方法由于在速度和存储方面的优势,它作为一种ANN方法广泛用于大规模图像的检索中。哈希学习是学习一种保持图像相似性的紧密位表示,使得相似的图像能够匹配到相近的二进制哈希编码。
目前,主要流行一些非监督和监督的哈希方法[12, 13, 14, 15, 16, 17, 18]。非监督的哈希方法使用非标签数据来学习一组哈希函数[12, 13, 17]。其中,最具有代表性的是使用随机映射构造哈希函数的局部感知哈希(locality sensitive Hashing,LSH)[12],它意在把相似的数据匹配到相近的二进制编码的概率最大化。然而,LSH通常需要使用较长的哈希编码才能达到令人满意的精度,这导致了较大的存储空间需求和召回率普遍偏低的问题。谱哈希(spectral Hashing,SH)[13]是另外一个具有代表性的方法,其利用非线性函数沿着数据的主成分分析(principal component analysis,PCA)方向通过设定阈值来产生二进制编码。
之后,大量的研究证明,使用监督信息可以提高哈希编码的学习性能。特别的,文献[14, 16, 18]在学习中利用数据的标签信息来生成有效的哈希函数。
但是,图像检索中的这些哈希方法都是首先对图像提取人工视觉特征,而人工特征不需要获得图像的相似性,因此这通常可能影响这些哈希方法的效果,从而降低了图像检索的性能。
随着2012年Alex等[19]的CNN模型在ILSVRC数据集上训练120万数量的带标签图像获得了更高的图像分类准确率,最近几年深度卷积特征得到广泛研究,并在计算机视觉工作上取得了很大的突破[20, 21, 22, 23]。2014年,Xia等[24]提出一种监督哈希方法CNNH和CNNH+,该方法首先把训练图像数据成对的语义相似度矩阵因式分解成近似哈希编码,然后利用这些近似哈希编码和图像标签训练一个深度卷积网络,取得了更好的性能,但是,CNNH和CNNH+中的矩阵分解会带来额外的错误,使得训练目标偏离。2015年,Guo等[25]提出一种直接基于CNN的哈希方法CNNBH,利用阈值0把一个全连接层的激活值二值化为二进制结果,从而得到哈希编码。同时,文献[26]提出一种简单但是非常有效的深度学习框架,该框架在文献[19]的深度CNN模型基础上添加一个隐藏层来同时学习特定领域的图像特征表示和一组类哈希函数,并取得了最好的检索性能。
如今这些优秀的基于CNN的检索方法虽然获得了巨大的进展,但是它们并没有把以前最好水准的哈希编码策略联系起来。
2 CNN和哈希编码相结合的方法在图像检索中,如果开始对图像提取的特征不出色的话,那么后面采用很高水准的哈希编码策略进行编码检索也不一定能取得很好的效果。因此,本文提出一种CNN和以前最好水准的哈希策略相结合的方法。我们采用文献[28]在IMAGENET Large-scale visual recognition challenge(ILSVRC)数据集上预训练过的VGGNet-D网络模型对目标图像集进行特征提取,获得图像的深层卷积特征表示,然后对这些表示分别采用LSH[12]、SH[13]、SKLSH[15]、ITQ[16]、PCA-RR[16]、DSH[18]6种哈希编码策略进行编码得到哈希码,最后进行快速检索。将这些结合策略分别命名为LSH-VC、SH-VC、SKLSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC。
2.1 VGGNet-D 网络模型最近几年,CNN模型在一些目标检测和图像识别中已经获得了令人印象深刻的结果。文献[28]使用很小卷积核的网络架构,对增加深度进行了全面的评估;实验表明,把网络的卷积层深度增加到16~19层时可以显著提升性能,设计的网络在ImageNet Challenge 2014的定位和分类项目上分别获得了第一名和第二名的成绩。此外,文献[28]的模型特征对许多不同的计算机视觉任务和数据集有很强的泛化能力,能够相比或者超过建立在较浅图像特征上的更复杂的识别方法。
本文选用文献[28]中优异的VGGNet-D网络模型。VGGNet-D的结构及每层参数设置如表 1。
VGGNet-D模型由13卷积层(conv1~13)和3个全连接层(FC14~16)构成。表 1中,卷积层的第一行参数表示卷积滤波器的数量和局部感受野的大小;“st.”表示卷积的步幅,“pad”表示空间填充;“x2 pooling”表示max-pooling下采样。接着,FC14和FC15使用dropout[19]方法来调整某些隐含层节点的权重不工作,最后的FC16是多路softmax分类器。其中,VGGNet-D的激活函数使用矫正线性单元(rectification linear unit,ReLU)。
conv1 | conv2 | conv3 | conv4 |
64×3×3 | 64×3×3 | 128×3×3 | 128×3×3 |
st. 1, pad 1 | st. 1, pad 1×2 pooling | st. 1, pad 1 | st. 1, pad 1×3 pooling |
conv5 | conv6 | conv7 | conv8 |
256×3×3 | 256×3×3 | 256×3×3 | 512×3×3 |
st. 1, pad 1 | st. 1, pad 1 | st. 1, pad 1×2 pooling | st. 1, pad 1 |
conv9 | conv10 | conv11 | conv12 |
512×3×3 | 512×3×3 | 512×3×3 | 512×3×3 |
st. 1, pad 1 | st. 1, pad 1×2 pooling | st. 1, pad 1 | st. 1, pad 1 |
conv13 | FC14 | FC15 | FC16 |
512×3×3 | 4096×7×7 | 4096×1×1 | 1000×1×1 |
st. 1, pad 1×2 pooling | dropout | dropout | softmax |
和文献[19]一致,VGGNet-D网络模型使用批量梯度下降法在ILSVRC数据集上进行训练学习;使用的超参数:批量大小、动量、权重衰减的l2惩罚系数、dropout比率和初始学习率分别设置为256、0.9、0.0005、0.5和0.01,而学习率在验证准确率停止增加时减小为原来值的十分之一;网络的每一层的权重由均值为0和方差为0.01的高斯分布来初始化。具体的,该模型的训练学习是最小化其整体代价函数。这里假定有一组数量为m的训练样本集xl,yl,…,xm,ym,对于整体样本,网络整体代价函数可表示为式(1):
$\begin{gathered}
J(W,b = \left[{\frac{1}{m}\sum\limits_{i = 1}^m {\left( {\frac{1}{2}{{\left\| {{h_{w,b}}({x^{(i)}}) - {y^{(i)}}} \right\|}^2}} \right)} } \right]) + \hfill \\
\frac{\lambda }{2}\sum\limits_{l = 1}^{{n_{l - 1}}} {\sum\limits_{i = 1}^{{s_l}} {\sum\limits_{j = 1}^{{s_{l + 1}}} {{{(W_{ji}^{(l)})}^2}} } } \hfill \\
\end{gathered} $
(1)
针对图像检索中重要的哈希编码部分,下面我们介绍本文方法的6种策略的核心技术。
1)LSH-VC:和LSH[27]一样,首先使用高斯随机矩阵将实数输入空间 Rd中的数据点随机映射到一个Rt空间中,其中t是一个很小的超常量,接着使用球分割方法把这个t维实数空间分割成多个单元,然后用哈希函数返回含有数据映射点的球单元的索引,度量标准选用l1范数。
2)SH-VC:和SH[13]一样,基于量化沿着数据PCA方向计算得到的解析特征函数值。
假设数据集中样本点xi,xj属于输入特征空间Rd,{y}i=1n表示n个样本点的长度为k的哈希码,Wn×n是一个关联矩阵,由于输入空间数据之间的欧式距离和相似度相关,那么输入特征空间用高斯核度量相似度W(i,j)=exp(-‖xi-xj‖2/ε2),参数ε规定空间Rd中相似数据的距离,相似的近邻间的平均汉明距离为$\mathop \sum \limits_{ij} $Wi,j‖yi-yj‖2,这样对图像特征向量的哈希编码过程可以表示为式(2)的优化问题:
$\begin{gathered}
\operatorname{minimize} :\mathop \sum \limits_{ij} {W_{i,j}}{\left\| {{y_i} - {y_j}} \right\|^2} \hfill \\
s.t.{y_i} \in {\left\{ { - 1,1} \right\}^k} \hfill \\
\mathop \sum \limits_i {y_i} = 0 \hfill \\
\frac{1}{n}\mathop \sum \limits_i {y_i}{y_i}^T = I \hfill \\
\end{gathered} $
(2)
3)SKLSH-VC:和SKLSH[15]一样,基于随机映射,适应任意分布的样本数据,在映射过程中不仅保留了原始数据之间的位置关系,而且考虑了生成的哈希码之间归一化的汉明距离的上下限。
考虑D维实数空间RD上的一个核函数K·,·对于所有数据点x,y∈RD满足下列条件:
①K·,·具有平移不变性,例如Kx,y=K(x-y)。
②K·,·是归一化的,例如Kx-y≤1,而且Kx-x≡K0=1。
③对于任何实数α≥1,K(αx,αy)≤K(x-y)。
高斯核函数K(x,y)=exp(-γ‖x-y‖2/2)或者拉普拉斯核函数K(x,y)=exp(-γ‖x-y‖1)是满足上面条件的两个著名样例,我们构建一个映射函数Fn,先将原始RD空间中的数据映射到低维空间,得到数据的随机傅里叶特征,确保平移不变核值没有变化,再对随机傅里叶特征映进行随机二值量化,从而得到二进制哈希码。
4)ITQ-VC、PCA-RR-VC:和ITQ、PCA-RR[16]一样,对数据集进行PCA降维处理,问题转化为将该数据集中的数据样本点映射到一个以零为中心的二进制超立方体的顶点上,不同的量化误差得到对应该数据集的不同的二进制编码。
假设有一组数据点{x1,x2,…,xn},xi∈Rd形成数据集矩阵X∈Rn×d,且以0为中心,目标是学习二进制哈希编码矩阵B∈{-1,1}n×c,c是编码长度,这样整个编码过程可以表示为 $B = \operatorname{sgn} (X\widetilde W)$,$\widetilde W$是映射矩阵。
对随机生成的矩阵进行奇异值分解(singular value decomposition,SVD)得到对应的c×c的正交矩阵来初始化旋转矩阵R,W是数据PCA方向的矩阵,PCA-RR-VC策略采用映射矩阵$\widetilde W$=WR,将经过PCA处理后的数据集V乘以随机正交矩阵R进行旋转变换;而ITQ-VC策略中使用的映射矩阵$\widetilde W$中的R是经过优化的量化误差最低的正交矩阵,这个优化问题,即找出最优的正交旋转矩阵R和与之对应的哈希编码矩阵B,采用交替迭代的求解方法来解决。
5)DSH-VC:和DSH [18]一样,通过 k均值聚类的量化结果,寻找r-adjacent组,即利用数据的几何结构来指导哈希函数映射的选择。
假设有n个训练数据样本x1,x2,…,xn∈Rd,L是数据哈希编码的长度,参数α控制样本被分组的数量。首先使用k均值算法迭代p次生成中心点分别为μ1,
μ2,…,μαL的αL个分组S={S1,S2,…,SαL},其中${\mu _i} = \frac{1}{{\left| {{S_i}} \right|}}\mathop \Sigma \limits_{x = {S_i}} x,{l_i} = 1,2,,\alpha L$,定义分组的r最近邻矩阵W
为式(3):
${W_{i,j}} = \left\{ \begin{gathered}
1,\mu \in {N_r}({\mu _j})or{\mu _j} \in {N_r}({\mu _i}) \hfill \\
0,否则 \hfill \\
\end{gathered} \right.$
(3)
\[h(x) = \left\{ \begin{array}{l}
gathered1,{w^T}xt\\
0,否则
\end{array} \right.\]
(4)
本文将在Caltech101[17]和Caltech256[18] 2个著名的图像集上对LSH-VC、SH-VC、SKLSH-VC、ITQ-VC、PCA-RR-VC、DSH-VC等6种策略和LSH、SH、SKLSH、ITQ、PCA-RR、DSH这些以前最好水准的图像哈希检索策略进行对比实验。
我们通过精度-召回率(Precision-Recall)和平均正确率值-编码位数(mAP-Number of bits)两种标准对本文方法进行性能评估。实验中,本文使用数据集第50个最近邻的平均距离作为阈值来判断一个查询到的数据是否和查询数据属于同一类。
实验环境:64位Win8系统,CPU主频2.50 GHz,8 Gbyte内存,MATLAB2014a。
3.1 Caltech101Caltech101数据集包含8 677张图片,共101个类别,包括家具、动物、运动器材、车辆等,每一类图像的数量最少是31,最多是800。其中,图片的大小各不相同。为了公平的对比,实验中,所有策略都是随机选取1 000张作为测试图像。
1)我们采用常用的32、64、128和256等4种哈希编码位数在Precision-Recall这个标准上进行实验分析,实验结果如图 1和图 2。
对比图 1和图 2,我们清楚地看到,本文的6种图像检索策略相比于以前最好水准的对应的策略有更优的Precision-Recall曲线(64位编码时SKLSH-VC略差于SKLSH);其中LSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC的优势更明显。依赖数据的策略(ITQ 、ITQ-VC、PCA-RR、PCA-RR-VC和SH、SH-VC)在gist和CNN特征下随着编码位数的增加都会遇到性能瓶颈,而独立于数据的 SKLSH和SKLSH-VC策略就没有这种限制。
此外,图 2表明ITQ-VC和PCA-RR-VC在编码位数较小时,相比于本文其他4种策略在相同召回率情况下的准确率有更大的优势。
2)mAP 是反映一个方法在全部相关数据上性能的单值指标。利用该方法检索出来的相关数据的排位越靠前,mAP就可能越高。本文方法在mAP-Number of bits标准上的实验结果如图 3。
图 3中,使用CNN特征的本文6种策略的mAP值明显高于以前最好水准的对应的使用gist特征的检索策略(16和64位编码时SKLSH-VC略差于SKLSH);同样的,LSH-VC、ITQ-VC、PCA-RR-VC和DSH-VC的优势更明显。其中ITQ-VC在不同的编码位数时一直拥有最高的mAP值,相比于ITQ策略分别提升了103.0%、105.7%、97.2%、93.4%、89.3%,效果显著。
3.2 Caltech256Caltech256数据集包含29 780张图片,共256个类别,相比于Caltech101,类与类之间和每类中图像主体位置变化更明显,十分适合于图像检索实验。为了公平地对比,实验中,所有策略同样都是随机选取1 000张作为测试图像。
1)和3.1节一样,在Precision-Recall这个标准上我们采用32、64、128和256这4种编码位数进行实验分析,实验结果如图 4、5。
对比图 4、5,可以看到本文方法的5种策略相比于以前最好水准的对应策略具有更好的Precision-Recall曲线(SKLSH-VC除外)。随着编码位数增加,ITQ-VC、PCA-RR-VC和SH-VC似乎达到了性能的上限,而LSH-VC在CNN特征下却不受这个限制,性能提升迅速。同时,可以清楚地看到结合CNN特征的ITQ-VC检索策略在4种不同的编码位数下都具有最优的Precision-Recall曲线。
2)在mean Average Precision-Number of bits标准上的实验结果如图 6。分析图 6,相比以前最好水准的对应策略,使用CNN特征的本文5种策略获得了更高的mAP值(SKLSH-VC除外)。ITQ-VC在所有编码位数下一直有最高的mAP值,分别为0.401、0.665、0.785、0.849和0.886,在ITQ上提高了74.2%、116.8%、109.5%、107.4%和103.3%,效果显著;结合前面的实验中ITQ-VC一直有最好的性能表现,可以得知基于人工特征的性能较好的编码策略在深层卷积特征下依旧能够获得较好的性能。
在Caltech101和Caltech256数据集上的两组实验充分说明了使用CNN的卷积特征进行哈希编码检索能够获得一定程度的性能提升。
4 结束语在图像检索上,本文提出一种结合CNN和以前最好水准的哈希编码策略的有效方法。首先,采用VGGNet-D网络模型对目标图像集提取图像的深层特征表示,再使用以前最好水准的哈希编码策略把这些特征编码成二进制码。实验结果显示,本文方法的LSH-VC、SH-VC、ITQ-VC、PCA-RR-VC和DSH-VC策略相比于以前最好水准的对应策略获得了更高的性能。同时本文方法表明,当CNN这种最先进的技术在图像检索领域迅猛发展的时候,一些先前经典的哈希编码策略仍不能忽略,这将在图像检索应用上具有一定的参考价值。另外,我们还有若干问题有待解决,如卷积特征并不是对所有的哈希编码策略都有效,这些问题有待进一步研究。
[1] | SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE transactions on pattern analysis and machine intelligence, 2000, 22(12): 1349-1380. |
[2] | WAN Ji, WANG Dayong, HOI S C H, et al. Deep learning for content-based image retrieval: a comprehensive study[C]//Proceedings of the 22nd ACM international conference on multimedia. Orlando, USA, 2014: 157-166. |
[3] | LOWE D G. Distinctive Image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110. |
[4] | BAY H, TUYTELAARS T, VAN GOOL L. SURF: speeded up robust features[M]//LEONARDIS A, BISCHOF H, PINZ A. Computer vision-ECCV 2006. Berlin Heidelberg: Springer, 2006: 404-417. |
[5] | SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding[J]. IEEE/ACM transactions on audio, speech, and language processing, 2014, 22(4): 778-784. |
[6] | LANDECKER W, CHARTRAND R, DEDEO S. Robust sparse coding and compressed sensing with the difference map[C]//Proceedings of the 13th European conference on computer vision. Zurich, Switzerland, 2014: 315-329. |
[7] | GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the IEEE international conference on acoustic speech and signal processing. Vancouver, British Columbia, Canada, 2013: 6645-6649. |
[8] | BRUNA J, SZLAM A, LECUN Y. Signal recovery from pooling representations[J]. Eprint Arxiv, 2013: 307-315. |
[9] | LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the 2015 IEEE conference on computer vision and pattern recognition. Boston, Massachusetts, USA, 2015: 5325-5334. |
[10] | GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE conference on computer vision and pattern recognition. Columbus, OH, USA, 2014: 580-587. |
[11] | LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[C]//Proceedings of international conference on learning representations. Banff, Canada, 2014. |
[12] | GIONIS A, INDYK P, MOTWANI R. Similarity search in high dimensions via hashing[C]//Proceedings of the 25th international conference on very large data bases. San Francisco, CA, USA, 1999: 518-529. |
[13] | WEISS Y, TORRALBA A, FERGUS R. Spectral hashing[C]//Proceedings of conference on neural information processing systems. Vancouver, British Columbia, Canada, 2008: 1753-1760. |
[14] | KULIS B, DARRELL T. Learning to hash with binary reconstructive embeddings[C]//Advances in neural information processing systems 22: 23rd annual conference on neural information processing systems 2009. Vancouver, British Columbia, Canada, 2010: 1042-1050. |
[15] | RAGINSKY M, LAZEBNIK S. Locality-sensitive binary codes from shift-invariant kernels[C]//Advances in neural information processing systems 22: conference on neural information processing systems 2009. Vancouver, British Columbia, Canada, 2009: 1509-1517. |
[16] | GONG Yunchao, LAZEBNIK S, GORDO A, et al. Iterative quantization: a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(12): 2916-2929. |
[17] | NOROUZI M, FLEET D J. Minimal loss hashing for compact binary codes[C]// Proceedings of the 28th international conference on machine learning. Bellevue, WA, USA, 2011: 353-360. |
[18] | JIN Zhongming, LI Cheng, LIN Yue, et al. Density sensitive hashing[J]. IEEE transactions on cybernetics, 2014, 44(8): 1362-1371. |
[19] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25. Lake Tahoe, Nevada, USA, 2012. |
[20] | DONAHUE J, JIA Yangqing, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[C]//Proceedings of the 31st international conference on machine learning. Beijing, China, 2014: 647-655. |
[21] | ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[C]//Proceedings of the 13th European conference on computer vision. Zurich, Switzerland, 2014: 818-833. |
[22] | SERMANET P, EIGEN D, ZHANG Xiang, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013. |
[23] | RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]//Proceedings of the 2014 IEEE conference on computer vision and pattern recognition workshops. Columbus, OH, USA, 2014: 512-519. |
[24] | XIA Rongkai, PAN Yan, LIU Cong, et al. Supervised hashing for image retrieval via image representation learning[C]//Proceedings of the 24th AAAI conference on artificial intelligence. Qubec City, Canada, 2014: 2156-2162. |
[25] | GUO Jinma, LI Jianmin. CNN Based Hashing for Image Retrieval[Z]. arXiv: 1509. 01354v1, 2015. |
[26] | LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]//Proceedings of the 2015 IEEE conference on computer vision and pattern recognition workshops (CVPRW). Boston, Massachusetts, USA, 2015: 27-35. |
[27] | ANDONI A, INDYK P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[C]//Proceedings of IEEE 54th annual symposium on foundations of computer science. Berkeley, CA, USA, 2006: 459-468. |
[28] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Eprint Arxiv, 2014. |
[29] | LI Feifei, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[J]. Computer vision and image understanding, 2007, 106(1): 59-70. |
[30] | GRIFFIN G, HOLUB A, PERONA P. Caltech-256 object category dataset[R]. CaltechAUTHORS: CNS-TR-2007-001, 2007. |