基于Object Proposals并集的显著性检测模型

引用本文

赵闰霞, 蹇木伟, 齐强, 等. 基于Object Proposals并集的显著性检测模型[J]. 智能系统学报, 2018, 13(6): 946-951. DOI: 10.11992/tis.201801009.

ZHAO Runxia, JIAN Muwei, QI Qiang, et al. Saliency detection model based on the union of Object Proposals[J]. CAAI Transactions on Intelligent Systems, 2018, 13(6): 946-951. DOI: 10.11992/tis.201801009.

基金项目

国家自然科学基金项目(61601427，61602229).

通信作者

蹇木伟. E-mail：20173016@sdufe.edu.cn

作者简介

赵闰霞，女，1993年生，硕士研究生，主要研究方向为图像处理;
蹇木伟，男，1982年生，教授，博士生导师，CCF计算机视觉专委会委员，CCF多媒体专委会委员，CCF机器学习与模式识别通讯委员，山东数媒专委会委员等。主要研究方向为图像处理、模式识别、多媒体计算、机器学习、认知科学。主持国家自然科学基金等研究课题10余项。以第一发明人或第一申请人被授予3项国家专利，其中1项国家发明专利和2项国家实用新型专利。发表学术论文50余篇。被SCI检索的国际期刊论文14篇、被EI检索论文40余篇;
齐强，男，1990年生，硕士研究生，主要研究方向为图像处理、模式识别、水下视觉

文章历史

收稿日期：2018-01-08
网络出版日期：2018-04-12

Contents Abstract Full text Figures/Tables PDF

基于Object Proposals并集的显著性检测模型

赵闰霞¹, 蹇木伟^1,2, 齐强¹, 王静¹, 王瑞红¹, 董军宇¹

1. 中国海洋大学信息科学与工程学院，山东青岛 266000;
2. 山东财经大学计算机科学与技术学院，山东济南 250014

收稿日期：2018-01-08；网络出版日期：2018-04-12

基金项目：国家自然科学基金项目(61601427，61602229).

作者简介：赵闰霞，女，1993年生，硕士研究生，主要研究方向为图像处理;
蹇木伟，男，1982年生，教授，博士生导师，CCF计算机视觉专委会委员，CCF多媒体专委会委员，CCF机器学习与模式识别通讯委员，山东数媒专委会委员等。主要研究方向为图像处理、模式识别、多媒体计算、机器学习、认知科学。主持国家自然科学基金等研究课题10余项。以第一发明人或第一申请人被授予3项国家专利，其中1项国家发明专利和2项国家实用新型专利。发表学术论文50余篇。被SCI检索的国际期刊论文14篇、被EI检索论文40余篇;
齐强，男，1990年生，硕士研究生，主要研究方向为图像处理、模式识别、水下视觉.

通信作者：蹇木伟. E-mail：20173016@sdufe.edu.cn.

摘要：针对当前常见的显著性检测模型得到的结果会包含大量的背景区域的缺点，本文提出了基于Object Proposals并集的显著性检测模型。该模型首先对于输入图片生成一系列Object Proposals，并通过其并集计算得到背景图；然后结合纹理特征和全局对比度得到初始显著图；最后，用得到的背景图对初始显著图进行背景抑制得到最终显著图。实验结果表明，在通用MSRA1000数据集上，本文提出的显著性模型与其他5种方法相比取得了很好的效果。

关键词：显著性检测 object proposal 超像素纹理背景图全局对比度边界连通性自底向上

Saliency detection model based on the union of Object Proposals

ZHAO Runxia¹, JIAN Muwei^1,2, QI Qiang¹, WANG Jing¹, WANG Ruihong¹, DONG Junyu¹

1. College of Information Science and Engineering, Ocean University of China, Qingdao 266000, China;
2. School of Computer Science & Technology, Shandong University of Finance and Economics, Ji’nan 250014, China

Abstract: In saliency detection, current existing models usually produce results containing many background regions. To improve the performance, a novel saliency detection model is proposed based on the union of object proposals. The model first generates a series of object proposals from the input pictures, and then gets the background map by computing the union, and then obtains the initial saliency map by combining the texture and global contrast. Finally, the final saliency map is derived by restraining the initial saliency map with the obtained background map. Experimental results on the general MSRA1000 dataset demonstrate that the proposed saliency model performs well compared to the other five existing methods.

Key words: saliency detection Object Proposal superpixels texture background map global contrast boundary connectivity bottom-up

近年来，显著性检测在图像处理和计算机视觉领域中愈发重要，并且得到了广泛研究和应用。显著性检测的本质是模拟人类的视觉注意机制提取图像中最引人注意的区域，目前已被广泛应用于图像分割^[1]、目标识别^[2]、像压缩^[3]以及图像检索^[4]等领域。

显著性检测方法通常可分为两种模型：自底向上(bottom-up)^[5−10]和自顶向下(top-down)^[11−12]。自底向上一般是快速的、数据驱动的显著性提取模型。Cheng等^[5]提出了基于区域对比度的显著性检测算法，用于测量全局对比度差异；Harel等^[6]提出了一种基于图形的显著性模型检测图像中的显著物体；Erdem^[7]使用从局部图像块提取的图像特征的协方差矩阵来计算最终的显著性图；Murray等^[8]设计了一种特殊的颜色外观显著性检测模型；Shi^[9]通过图形模型提出了一种分层图像显著性目标检测方法，以产生最终显著性等级；Yang等^[10]通过基于图形的流形排序实现图像元素(像素或区域)与前景或背景线索的相似性的排序。

与自底向上相反，自顶向下通常是慢速的、任务依赖的、目标驱动的显著性提取。自顶向下的方法通常依赖于学习框架，采用高层线索和先验知识进行显著性检测。文献[11]中提出了通过学习条件随机场进行特征组合，并引入动态显著特征以实现显著目标的检测。最近，文献[12]提出了一种结合字典学习和条件随机场的自上而下的视觉显著性模型。

一般情况下，使用基于学习框架的显著性检测模型的检测效果会比较好，但是其检测效果会很大程度上依赖于模型的训练样本，训练的过程也会使计算复杂度增加。非学习类的显著性检测模型通常是以底层特征为线索进行显著性检测，如对比度先验、中心先验、背景先验等。这些方法一般只对简单的场景有效，当背景与检测对象相似时，这类方法将无法准确地检测出目标物体。

本文提出基于Object Proposals并集的显著性检测模型。首先我们利用Object Proposals的有效信息预测背景区域的位置并得到背景图，然后基于纹理特征以及全局对比度进行显著性检测，最后将三者进行融合得到最终的显著图。

1 Object Proposals

Object Proposals是一系列包含目标对象的候选区域，它通常以预处理的形式广泛应用于各种视觉任务。Alexe等^[13]提出了对象度量(objectness measure)的概念，量化一个图像窗口覆盖对象的可能性；Cheng等^[14]提出二值化规范梯度(BING)特征，有助于用对象评分(objectness score)搜索对象。本文使用Edge Boxes^[15]算法生成Proposals，得到的Proposals会包含丰富的对象级特征，我们利用这些特征判断显著目标的位置并预测背景区域。

对于图像I，首先使用SLIC算法^[16]得到超像素图， $ I= \left\{ {{{\rm{sp}}_1}, {{\rm{sp}}_2},\cdots ,{{\rm{sp}}_n}} \right\}$ 。然后使用Edge Boxes^[15]算法生成图像I的Proposals，这里面部分候选框能准确地标注到目标对象，但也存在大量的候选框包含太多的背景区域或者不包含目标对象。以图1为例，(a)中的3个候选框都标注到了目标对象，且包含的背景区域比较少；(b)中的候选框则没有包含目标对象；(c)中的候选框虽然包含了目标对象，但也包含了很多的背景区域。为了得到更准确的背景区域，根据目标分数对得到的候选框进行选择。一般分数靠前的候选框能够更准确地包含到目标物体，所以选择前N个候选框作为目标集合A，在实验中，N的取值为100。

	Download: JPG larger image
图 1 目标候选框 Fig. 1 Object Proposals

在目标集合A中，针对图1(b)、(c)的现象，对包含大量背景区域的候选框进行删除。受文献[17-19]的启发，本文中使用基于超像素的边界连通性对候选框进行筛选。用BndCon(∙)表示边界连通性，其本质是描述一个区域与图像边界的连通程度^[20]。BndCon(∙)的定义为

${\rm{BndCon}}\left( {{{\rm{sp}}_i}} \right) = \frac{{{\rm{Le}}{{\rm{n}}_{{\rm{bnd}}}}\left( {{{\rm{sp}}_i}} \right)}}{{\sqrt {{\rm{Area}}\left( {{{\rm{sp}}_i}} \right)} }}$

式中：Area(sp_i)的含义是区域中存在的超像素数目，而Len_bnd(sp_i)则是与边界相邻的超像素的数目。BndCon(sp_i)的值越大，则表明边界上的超像素数目越多，也就是该区域是背景区域的可能性越大。若一个候选框计算得到的BndCon(sp_i)很大，我们则认为这个候选框包含了很多背景区域，并从A中将其删除。最终得到的目标集合能尽量去除背景区域的影响，更新后的目标集合记作A^–。

2 基于Object Proposals并集的显著性检测 2.1 构建基于OP并集的背景图

定义得到的目标集合 ${A^ - } = \left\{ {{b_1},{b_2}, \cdots ,{b_n}} \right\}$ ，其中b_i表示第i个候选框，n表示候选框的个数。为了得到最终的背景图，以候选框中包含的超像素为单位进行计算^[17]，超像素sp_i的目标分数O(p_i)定义为

$O\left( {{{\rm{sp}}_i}} \right) = \mathop \sum \limits_{j = 0}^n o\left( {{b_j}} \right) \cdot \delta,\; {{{\rm{sp}}_i} \in {b_j}} $

o(b_j) 表示候选框b_j的目标分数，若超像素sp_i属于候选框b_j，δ(∙)则取值为1，否则为0。

通过计算A^–中所有超像素的(p_i)值，可以得到最终的OP并集，然后用φ划分目标对象和背景区域，如下：

$\varPhi \left( {{{\rm{sp}}_i}} \right) = \left\{ {\begin{array}{*{20}{c}}\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!0,\\{O\left( {{{\rm{sp}}_i}} \right),}\end{array}\begin{array}{*{20}{c}}\!\!\!\!\!\!\!\!\!\!\!\!{O\left( {{{\rm{sp}}_i}} \right) \leqslant \varphi }\\{{\text{其他}}}\end{array}} \right.$

式中 $\varphi = \displaystyle\frac{\mu }{N}\mathop \sum \nolimits_{i = 1}^N O\left( {{\rm sp}}_i \right)$ 。当目标分数小于等于阈值φ时，将其定义为背景区域，大于φ的区域不做处理，如图2所示。图2中第1列为原图，第4列为得到的背景图，背景图中黑色区域表示背景，与原图相比可知，我们得到的背景图能够检测到大部分背景区域。

	Download: JPG larger image
图 2 本文的显著性检测模型 Fig. 2 Our proposed saliency model

2.2 纹理显著性

纹理^[21-22]通常反应的是图像的某种局部化性质，一般表现为图像像素点某邻域内灰度级或者颜色的变化。在图像中彩色像素并不是一个随机的组合，而是有一定含义的排列，不同排列会形成不同的纹理，这些纹理特征则可用于对图像中的空间信息进行一定程度的定量描述。

在本文中，使用选择性纹理^[23]获得纹理显著性。首先，将纹理表达式通过k-means^[24]算法进行聚类，并将聚类中心作为代表纹理^[23]，最后每个纹理特征都可以用其最近的代表纹理进行表示。使用的滤波器组是高斯导数以及其希尔伯特变换沿着y轴旋转得到的，具体为

${f_g}\left( {x,y} \right) = \frac{{{{\rm{d}}^2}}}{{{{\rm{dy}}{{^2}}}}}\left( {\frac{1}{\mu }\exp {{\left( {\frac{y}{\sigma }} \right)}^2}\exp {{\left( {\frac{x}{{\sigma l}}} \right)}^2}} \right)$

${f_h}\left( {x,y} \right) = {\rm{Hilbert}}\left( {{f_g}\left( {x,y} \right)} \right)$

式中：μ是标准化常数，σ和l分别是尺度参数和方向参数。对于图像I的第i个像素I_i的纹理显著性定义如下：

${S_1}\left( {{I_i},{R_i}} \right) = \mathop \sum \limits_{{I_j} \ne {I_i},{I_j} \in {R_i}} D\left( {{I_i},{I_j}} \right)$

式中：R_i表示I_i所在的区域， ${{D}}\left( {{I_i},{I_j}} \right)$ 是I_i和I_j的纹理特征的距离，其定义如下：

$D\left( {{I_i},{I_j}} \right) = \parallel {{{t}}_i} - {{{t}}_j}{\parallel _2}$

式中t_i和t_j分别是像素I_i和I_j的纹理特征。图2中的第3列是选择性纹理检测^[23]的结果，可以看出纹理显著性检测能够区分出不同纹理的对象，但结果依然会包含背景中的部分纹理内容，比如第3行的纹理检测结果。

2.3 全局对比度显著性

空间加权对比度在文献[5，18]中已被证明是有效的显著性检测方法。在文献[5]中是将图片分割成若干区域，计算区域及颜色对比度，再用每个区域与其他区域对比度加权和定义此区域的显著性。本文中直接在第1节中获得的超像素基础上进行计算。对于任意超像素sp_i，在CIE LAB色彩空间中计算超像素sp_i的颜色平均值c_i以及平均像素坐标d_i，并将d_i归一化到[0，1]。对于超像素sp_i，其空间加权区域对比度为

${S_2}\left( {{{\rm{sp}}_i}} \right) = \mathop \sum \limits_{j \ne i,} \parallel {{{c}}_{{i}}} - {{{c}}_{{j}}}\parallel \cdot {\rm{exp}}\left( { - \frac{{\parallel {{{d}}_{{i}}} - {{{d}}_{{j}}}\parallel }}{{2\sigma _p^2}}} \right)$

式中：σ_p为空间加权参数，σ_p越小，空间权值的影响就会越大，这样就可以使较近的区域对当前区域的显著性值产生较大的影响。本文中，σ_p²取值0.2。图2中的第2列是全局对比度的检测结果，全局对比度图能进一步凸显前景区域，加深纹理检测图中的显著目标的显著程度。

2.4 显著性融合

将得到的背景图(2.1节)、纹理显著图(2.2节)以及全局对比显著图(2.3节)进行融合。首先将纹理显著图和全局对比度显著图进行融合，旨在结合二者的优势，相互补充，优化显著图。

${\rm{Sal}} = {\rm{norm}}\left( {{S_1}} \right) + {\rm{norm}}\left( {{S_2}} \right)$

式中norm(∙)是对得到的显著图进行归一化。在这里选择“+”是因为纹理检测和全局对比度检测可以相互补充，此外，通过加运算可以使前景区域分布更均匀^[19]。

在得到融合显著图Sal后，使用2.1节中得到的背景图对显著图Sal的背景区域进行抑制，从而提高显著图的准确率。

${{S}} = {\rm{Sal}}\times \varPhi \left( {O\left( {{p_i}} \right) \leqslant \varphi } \right)$

式中 $\varPhi \left( {O\left( {{p_i}} \right) \leqslant \varphi } \right)$ 是指背景图中的背景区域。图2中的第5列是融合后的最终显著图S，得到的最终显著图在目标物体上显著性分布更均匀，与背景的分割边界也更加清晰。

3 实验与比较

本文在MSRA1000公开数据集对本文的显著性模型进行了测试，并与一些经典的算法进行比较：SR^[25]、HC^[5]、FT^[26]、LC^[27]、GS^[28]。实验过程中，使用的代码均采用作者公开的代码。

图3是将本文的显著性检测模型与其他5种算法进行比较的效果图。从图中可以看出在MSRA1000数据集上本文提出的显著性检测模型比SR、HC、FT、LC相比效果有很大提升；与GS相比，本文的显著性检测图前景分布更均匀，且背景区域得到了明显抑制。

	Download: JPG larger image
图 3 显著图的视觉效果对比图 Fig. 3 Visual comparison of saliency maps

为了更全面地测试方法的性能，使用PR曲线、F-measure进一步与其他方法进行比较。

对于得到的显著图，设定阈值T_f∈[0，255]来得到二值分割图，并与ground truth进行比较得到准确率和召回率。除此之外，我们还记算了F-measure衡量总体的检测效果，

${F_\beta } = \frac{{\left( {1 + {\beta ^2}} \right){\rm{Precision}} \times {\rm{Recall}}}}{{{\beta ^2}{\rm{Precision}} + {\rm{Recall}}}}$

β²取值为0.3。由图4～5可知，本文方法与SR、HC、FT、LC相比，准确率和召回率、F-measure都有很大提升。与GS相比，由图5可以看出，在召回率相同时，大部分情况下我们的方法准确率更高，也存在小部分结果其准确率微低于GS，但从图4也能够看出在平均情况下，无论是准确度、召回率还是F-measure，本文方法均略高于GS。

	Download: JPG larger image
图 4 统计指标的对比结果 Fig. 4 Quantitative comparison results

	Download: JPG larger image
图 5 正确率–召回率曲线 Fig. 5 Precision-recall curves

4 结束语

本文提出的基于Object Proposals并集的显著性检测模型，首先利用Object Proposals计算背景图，然后将纹理和全局对比度结合进行显著性检测，最后利用背景图抑制背景区域得到最终显著图。实验结果表明，本文提出的显著性检测模型取得了较好的效果。

参考文献

[1]	王超, 王浩, 王伟, 等. 基于优化ROI的医学图像分割与压缩方法研究[J]. 重庆邮电大学学报: 自然科学版, 2015, 27(2): 279-284. WANG Chao, WANG Hao, WANG Wei, et al. Study of optimized ROI based medical image segmentation and compression method[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2015, 27(2): 279-284. (0)
[2]	杨林娜, 安玮, 林再平, 等. 基于空间距离改进的视觉显著性弱小目标检测[J]. 光学学报, 2015, 35(7): 0715004. YANG Linna, AN Wei, LIN Zaiping, et al. Small target detection based on visual saliency improved by spatial distance[J]. Acta optica sinica, 2015, 35(7): 0715004. (0)
[3]	ITTI L. Automatic foveation for video compression using a neurobiological model of visual attention[J]. IEEE transactions on image processing, 2004, 13(10): 1304-1318. DOI:10.1109/TIP.2004.834657 (0)
[4]	CHEN Tao, CHENG Mingming, TAN Ping, et al. Sketch2photo: internet image montage[J]. ACM transactions on graphics, 2009, 28(5): 1-10. (0)
[5]	CHENG Mingming, MITRA N J, HUANG Xiaolei, et al. Global contrast based salient region detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 569-582. DOI:10.1109/TPAMI.2014.2345401 (0)
[6]	HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]//Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA, USA, 2007: 545–552. (0)
[7]	ERDEM E, ERDEM A. Visual saliency estimation by nonlinearly integrating features using region covariances[J]. Journal of vision, 2013, 13(4): 11. DOI:10.1167/13.4.11 (0)
[8]	MURRAY N, VANRELL M, OTAZU X, et al. Saliency estimation using a non-parametric low-level vision model[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition . Washington, DC, USA, 2011: 433–440. (0)
[9]	SHI Jianping, YAN Qiong, XU Li, et al. Hierarchical image saliency detection on extended CSSD[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(4): 717-729. DOI:10.1109/TPAMI.2015.2465960 (0)
[10]	YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Washington, DC, USA, 2013: 3166–3173. (0)
[11]	LIU Tie, YUAN Zejian, SUN Jian, et al. Learning to detect a salient object[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(2): 353-367. DOI:10.1109/TPAMI.2010.70 (0)
[12]	YANG Jimei, YANG M H. Top-down visual saliency via joint CRF and dictionary learning[C]//Proceedings of Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC, USA, 2012: 2296–2303. (0)
[13]	ALEXE B, DESELAERS T, FERRARI V. Measuring the objectness of image windows[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2189-2202. DOI:10.1109/TPAMI.2012.28 (0)
[14]	CHENG Mingming, ZHANG Ziming, LIN Wenyan, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of IEEE conference on computer vision and pattern recognition. Columbus, OH, USA, 2014: 3286–3293. (0)
[15]	ZITNICK C L, DOLLáR P. Edge boxes: Locating object proposals from edges[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2014: 391–405. (0)
[16]	ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2274-2282. DOI:10.1109/TPAMI.2012.120 (0)
[17]	HUANG Fang, QI Jinqing, LU Huchuan, et al. Salient object detection via multiple instance learning[J]. IEEE transactions on image processing, 2017, 26(4): 1911–1922. (0)
[18]	PERAZZI F, KRÄHENBÜHL P, PRITCH Y, et al. Saliency filters: Contrast based filtering for salient region detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA, 2012: 733–740. (0)
[19]	XI Tao, ZHAO Wei, WANG Han, et al. Salient object detection with spatiotemporal background priors for video[J]. IEEE transactions on image processing, 2017, 26(7): 3425-3436. DOI:10.1109/TIP.2016.2631900 (0)
[20]	ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]//Proceedings of IEEE conference on computer vision and pattern recognition. Columbus, OH, USA, 2014: 2814–2821. (0)
[21]	刘丽, 匡纲要. 图像纹理特征提取方法综述[J]. 中国图象图形学报, 2009, 14(4): 622-635. LIU li, KUANG Gangyao. Overview of image textural feature extraction methods[J]. Journal of image and graphics, 2009, 14(4): 622-635. (0)
[22]	王佐成, 薛丽霞. 一种新的纹理基元发现及表达方法[J]. 重庆邮电大学学报: 自然科学版, 2011, 23(1): 115-120. WANG Zuocheng, XUE Lixia. A new representation method of image texton[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2011, 23(1): 115-120. (0)
[23]	WANG Qi, YUAN Yuan, YAN Pingkun. Visual saliency by selective contrast[J]. IEEE transactions on circuits and systems for video technology, 2013, 23(7): 1150-1155. DOI:10.1109/TCSVT.2012.2226528 (0)
[24]	HARTIGAN J A, WONG M A. Algorithm as 136: a k-means clustering algorithm[J]. Journal of the royal statistical society. series c (applied statistics), 1979, 28(1): 100-108. (0)
[25]	HOU Xiaodi, ZHANG Liqing. Saliency detection: a spectral residual approach[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA, 2007: 1–8. (0)
[26]	ACHANTA R, HEMAMI S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proceedings of Conference on Computer vision and pattern recognition. Miami, FL, USA, 2009: 1597–1604. (0)
[27]	ZHAI Yun, SHAH M. Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th ACM international conference on Multimedia. New York, NY, USA, 2006: 815–824. (0)
[28]	WEI Y, WEN F, ZHU W, et al. Geodesic saliency using background priors[J]. Computer vision-ECCV 2012, 2012: 29-42. (0)