自动化学报  2017, Vol. 43 Issue (4): 665-673   PDF    
目标鲁棒识别的抗旋转HDO局部特征描述
胡扬1, 张东波1,2, 段琪1     
1. 湘潭大学信息工程学院 湘潭 411105;
2. 机器人视觉感知与控制技术国家工程实验室 湘潭 411105
摘要: 主方向直方图(Histograms of dominant orientations,HDO)是一种简单但性能优良的局部图像描述子,但是,原有的HDO特征描述不具备旋转不变性.本文提出一种抗旋转变换HDO特征描述方法,在进行RGT(Radial gradient transform)变换后,采用圆形邻域计算给定位置的结构张量,使得求取的主方向和一致性特征分量具备一定的旋转不变性,最后为增强辨别能力,采用了多扇区划分空间池化操作.在公开的MIT人脸数据集中的测试结果显示,如果图片不旋转,本文方法准确率与传统的HDO算法基本持平,达到92.10%,但当样本图片旋转后,本文算法准确率比传统HDO算法高10.36%.此外,在行人数据集、合成的旋转手掌和旋转人脸识别实验中,本文方法的检测结果也明显优于传统的HDO算法.另外本文方法在53Objects、ZuBuD和Kentuky三个数据集上的识别性能也优于大部分现有抗旋转算子.
关键词: 局部图像描述     旋转不变性     RGT变换     特征池化    
An Improved Rotation-invariant HDO Local Description for Object Recognition
HU Yang1, ZHANG Dong-Bo1,2, DUAN Qi1     
1. College of Information Engineering, Xiangtan University, Xiangtan 411105;
2. Robot Visual Perception and Control Technology National Engineering Laboratory, Xiangtan 411105
Received: 2015-12-11, Accepted: 2016-05-23.
Foundation Item: Supported by Hunan Province Nature Science Funding (2017JJ 2251)
Author brief: HU Yang Master student at the College of Information Engineering, Xiangtan University. His research interest covers image processing and pattern recognition;
DUAN Qi Master student at the College of Information Engineering, Xiangtan University. His research interest covers image processing and pattern recognition
Abstract: Histograms of dominant orientations (HDO) is a simple local image descriptor with fine performance. However, the original HDO feature description has no rotation invariance. This paper presents a rotation-invariant HDO feature description. To acquire the rotation invariant feature, i.e., dominant orientation and the coherent, by RGT (radial gradient transform), the structure tensor of given location is calculated in a circular neighborhood. Then, to enhance distinctiveness, space pooling operation is implemented with multi-sector division. Test results in public MIT faces data show that if the image does not rotate, the proposed method and the original HDO descriptor almost have the same accuracy (92.10%), while, if the image rotates, the accuracy of the improved HDO descriptor is higher than that of the original HDO by 10.36%. In addition, in the experiments of pedestrians, synthetic rotated palms and faces detections, our method is obviously superior to its original one. Moreover, the proposed method shows better recognition accuracy than most recent anti-rotation descriptors in public 53Objects, ZuBuD and Kentuky image datasets.
Key words: Local image descriptor     rotation invariance     radial gradient transform (RGT)     feature pooling    

局部特征描述在图像目标检测和识别中应用广泛, 在过去二十年里, 研究人员提出了大量的局部特征描述算子.为了处理图像中存在的尺度、光照、对比度、旋转等变化, 通常要求特征描述需具备光照、尺度和旋转不变性等, 著名的有SIFT[1]和SURF算子[2], 但是其构造过程相对比较复杂, 计算量大. 2005年Dalal等[3]提出的梯度方向直方图 (Histograms of oriented gradients, HOG) 由于计算简单, 能够较好地捕获图像形状特性, 在人脸和行人检测中获得良好的检测性能, 但是HOG在噪声较大和图像背景混乱的情况下鉴别能力显著下降, 因此为了克服HOG的这些弱点, 2014年Kim等[4]提出了鲁棒性更强的HDO特征, HDO特征能够鲁棒地描述图像局部主方向结构信息, 对于噪声和光照具有较强的鲁棒性, 同时其关注于主方向结构的描述, 类似于人眼视觉系统, 在复杂场景中能保证良好的鉴别能力, 因此能用于各种目标检测问题, 但是原有HDO特征不具备旋转不变性, 因此在很大程度上限制了它的推广应用.

从已有文献分析, 影响特征描述的旋转不变性的因素主要来自特征提取和池化操作两个方面: 1) 像素微观邻域提取局部特征以及在局部子空间内进行特征池化操作时, 应具有旋转不变性; 2) 在图像整体空间池化操作时应具有旋转不变性.只有同时满足这两个方面的旋转不变性, 才能建立具有旋转不变性的图像局部特征描述方法.当然, 特征描述具有旋转不变性, 并不能保证该特征一定具有良好的鲁棒识别性能, 因此需要考虑在保证鉴别能力的前提下, 使特征描述方法能够对抗图像中可能出现的旋转变换.

已有抗旋转变换的局部特征描述技术中, SIFT和SURF算子通过估计局部主梯度方向作为参考方向, 然后做适当的方向校准实现抗旋转变换, 但是由于梯度方向估计可能存在$\pm $20$^{\circ}$的误差[5], 因此易导致误判. LBP特征为了获得旋转不变性特征模式[6], 则通过排序策略找到具有最小值的模式特征, 该处理策略在基于梯度的方向直方图中也可以借用, 例如找到最大梯度方向, 然后以此为基准, 按顺时针或逆时针方向重新排列梯度方向直方图, 但是因易受噪声和其他因素干扰, 有时难以获得稳定的排序关系, 对于最终检测与识别造成困扰.有研究人员考虑采用成对特征点的梯度方向夹角取代方向, 由于夹角和旋转无关, 因此可实现旋转不变描述[7].构建局部坐标系统也是在特征提取阶段一种常用的抗旋转变换策略, 例如樊彬的局部旋转不变坐标系统[5], 文献[8]采用的径向梯度变换, 由于局部坐标系统在获得旋转不变性上, 具有严谨的理论支撑, 因此相对有更具说服力的结果.在图像空间池化操作阶段, 常用的旋转不变性策略采用环状空间[9]和圆形邻域[10], 也有基于灰度排序的池化策略[11].

针对HDO方法的局限性, 本文提出抗旋转HDO局部特征鲁棒描述方法, 综合考虑了特征提取阶段和空间池化阶段所需具备的旋转不变性要求, 同时考虑到保证鉴别能力的前提, 采用了径向梯度变换技术和环状扇区划分空间池化策略, 对原有HDO算法进行改进, 改进后的HDO局部特征描述方法具有较强的抗旋转变换性能, 多角度旋转的人脸和手掌识别测试结果表明, 本文提出的抗旋转HDO特征描述方法明显优于传统HDO方法.

1 特征描述方法

原有HDO特征称为主方向直方图 (Histograms of dominant orientations, HDO)[4], 核心思想是人眼视觉系统对局部图像结构的方向具有很强的自适应辨识能力, 局部结构的方向和一致性能够鲁棒表示图像中的重要内容.因此利用主方向和一致性这两个测度, 可以构建局部图像描述算子, 对潜在的图像结构进行有效描述.

为了计算图像给定位置的主方向$\theta $和一致性$c$, 需要构造如下结构张量:

$ S(i)=\left[ \begin{matrix} \sum\limits_{j\in {{B}_{i}}}{I_{x}^{2}}(j)&\sum\limits_{j\in {{B}_{i}}}{{{I}_{x}}}(j){{I}_{y}}(j) \\ \sum\limits_{j\in {{B}_{i}}}{{{I}_{x}}}(j){{I}_{y}}(j)&\sum\limits_{j\in {{B}_{i}}}{I_{y}^{2}}(j) \\ \end{matrix} \right] $ (1)

求得${S}\left ({{i}} \right)$的特征值和特征向量后, 可求得

$ \text{ }\theta ={{\tan }^{-1}}\left( \frac{v_{1}^{y}}{v_{1}^{x}} \right),\quad {{v}_{1}}={{\left[ v_{1}^{x}~~v_{1}^{y} \right]}^{\text{T}}}\text{ } $ (2)
$ \text{ }\text{ }c={{\lambda }_{1}}-{{\lambda }_{2}} $ (3)

其中, $I_{x} $和$I_{y} $分别表示$x$方向和$y$方向的梯度幅值, $B_{i} $表示以像素点$i$-th为中心的邻域 (例如, 5像素$\times $ 5像素邻域), $\theta $为此像素点邻域的主方向. ${v}_1$是结构张量的最大特征值对应的特征向量, 可表示该邻域内的主方向, $c$为结构张量特征值$\lambda_{1} $和$\lambda_{2} $的差值, 其中$\lambda_{1} $大于$\lambda_{2} $, 可以衡量此像素点邻域$B_{i} $内主梯度方向的一致性.通常在边缘区域, 可以获得较高的$c$值, 在平缓区域和高纹理区域, $c$值较小.

构造HDO特征时, 首先计算每个像素点的梯度, 求出每个像素点邻域的主方向$\theta $和一致性$c$, 之后将图像分成小的格状连通区域, 称为图像细胞单元 (Cell), 然后统计由相邻细胞单元组成的图像块 (Block) 的主方向直方图, 最后将这些直方图按照空间顺序组合起来.

假设图像的宽度和高度分别表示为$W$和$H$, 将图像划分为$(W/6) \times (H/6)$个Block, 每个Block由4个Cell组成, 图 1是图像空间划分示意图.

图 1 图像单元 (Cell)、图像块 (Block) 和原始图像 (Image) 的对应关系 Figure 1 The diagram of cell, block and image

以Block为基本单位统计主方向直方图时, 将主方向在0$^{\circ}$ ${\sim }$ 180$^{\circ}$分为$K$ $(K=8)$个Bin组, 然后构建一致性直方图, 生成如图 2所示的基本特征描述子$f=(f_{1}, f_{2}, \cdots, f_{{k}})$, 横轴表示方向范围 (0$^{\circ}$ ${\sim }$ 180$^{\circ}$), 被均分为8个Bin, 纵轴表示同一主方向区间的一致性累加和.

图 2 图像Block主方向直方图 Figure 2 Histogram of dominant orientation of image block

为了降低光照变化的影响, 对每个Block的特征描述子做L2归一化处理

$ \begin{align} &{{f}_{k}}=\frac{{{E}_{k}}}{\sqrt{\sum\limits_{l=1}^{k}{{{\left( {{E}_{l}} \right)}^{2}}}+\varepsilon }} \\ &{{E}_{k}}=\sum\limits_{\theta 1\left( x,y \right)=k}^{\left( x,y \right)\in M}{c}\left( x,y \right) \\ \end{align} $ (4)

其中, $c\left ({x, y} \right)$和$\theta 1\left ({x, y} \right)$分别为像素点$\left ({x, y} \right)$的一致性和主方向, $M$是当前的Block, $\varepsilon$是一个很小的正数.

把每个Block块的特征向量按空间顺序连接起来, 得到HDO特征描述子:

$ \label{eq4} {F}=\left( {{f}_{1}, {f}_{2}, \cdots, {f}_{{N}} } \right) $ (5)

其中, $N$表示图像中总的Block块的数目, ${f}_{{n}} $表示第$n$个Block的特征描述子向量, 因此最终的用于描述图像的HDO特征向量维数为$K \times N$.

由于HDO描述算子在计算水平梯度$I_{x} $和垂直梯度$I_{y} $时没有做对应的旋转变换处理, 因此在构造梯度张量时, 其内部单元值也随之变化, 因此求得的一致性和主方向也会因为图像发生旋转而变化.同时, 空间池化操作采用的格状划分方式也显然不具有旋转不变性, 因此不难判断HDO特征描述方法本身不具备抗旋转变换能力.

2 抗旋转变换HDO特征描述原理 2.1 梯度径向变换 (RGT变换)

如果按传统的方式计算梯度, 当图片旋转后, 各个像素点的梯度会发生变化.因此, 为了获得旋转不变的HDO特征, 需要进行RGT (Radial gradient transform) 变换, RGT的变换过程如图 3所示. 图 3中, $O$表示图像的中心, $P$为某圆周上任意一点, 以$P$点为原点, 沿$OP$和垂直$OP$方向构建新的局部坐标系统, 假设$r$和$t$分别是沿径向和切向两个正交方向的单位向量, 则

图 3 RGT变换示意图 Figure 3 Schematic diagram of RGT transform
$ r=\frac{p-o}{\left\| {p-o} \right\|}, \quad t=R_\frac{\pi }{2}\times r $ (6)

其中, $R_{\frac{\pi}{2}} $为旋转90$^{\circ}$矩阵.在新的局部坐标系统中, $P$点的梯度$g$可以分解为径向和切向分量之和, 即$g=(g^{{\rm T}}r) r+(g^{{\rm T}}t) t$, 其中第1项是$P$点梯度的径向分解, 第2项是$P$点梯度的切向分解.因此梯度$g$在局部坐标系统中可以表示为向量 ($g^{{\rm T}}r$, $g^{{\rm T}}t$).假定以$O$为中心旋转角度$\alpha $, 则对应的旋转后的${P'}$点坐标系统及其梯度记为

$ {P'}=R_{\alpha } P, ~~{r'}=R_{\alpha } r, ~~{t'}=R_{\alpha } t, ~~{g'}=R_{\alpha } g $

可以证明, 经RGT变换后的梯度具有旋转不变性

$ \begin{align} &({{I}_{{{r}'}}},{{I}_{{{t}'}}})=\left( {{{{g}'}}^{\text{T}}}{r}',{{{{g}'}}^{\text{T}}}{t}' \right)= \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \left( {{({{R}_{\alpha }}g)}^{\text{T}}}{{R}_{\alpha }}r,{{({{R}_{\alpha }}g)}^{\text{T}}}{{R}_{\alpha }}t \right)= \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \left( {{g}^{\text{T}}}R_{\alpha }^{\text{T}}{{R}_{\alpha }}r,{{g}^{\text{T}}}R_{\alpha }^{\text{T}}{{R}_{\alpha }}t \right)= \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \left( {{g}^{\text{T}}}r,{{g}^{\text{T}}}t \right)=({{I}_{r}},{{I}_{t}}) \\ \end{align} $

为了避免大量的浮点数运算, 提高计算速度, 采用一种近似的RGT变换, 即将圆形区域内各个点的基向量$r$和$t$以45$^{\circ}$一个区间单位近似为$r'$和$t'$, $r'$量化后的结果如图 4 (b)所示 ($t'$的量化处理结果与$r'$相似), 因此其梯度可以直接利用相邻像素点灰度值进行计算.

图 4 RGT变换及近似RGT变换 Figure 4 RGT transform and approximate RGT transform
2.2 基于圆形邻域的结构张量构造

传统的HDO构造结构张量时, 需要在给定像素点的矩形邻域$B_i$中计算, 当图片旋转$\theta $后, 像素点的矩形邻域$B_{i}^{\theta } $通常和$B_i$并不完全相同 ($\theta =90^{{\rm o}}$和$180^{{\rm o}}$除外), 这就不能充分保证HDO特征描述子具有旋转不变性.因此, 我们提出用圆形邻域代替矩形邻域求取每个像素点的结构张量. 图 5显示了某手掌图片旋转前后采用不同局部邻域的情况, 其中第2行为截取的局部子图, 从图 5可以看出, 如果采用矩形邻域, 当图片旋转后, 其邻域显然会存在一定变化 (图 5 (a)图 5 (b)所示), 如果采用圆形邻域, 无论图片怎么旋转, 像素点的圆形邻域是不变的 (图 5 (c)图 5 (d)所示), 即$B_{i}^{\theta } =B_i$, 同时因为满足$(I_{{r'}}, I_{{t'}})=(I_{r}, I_{t})$, 由此构造的结构张量不变:

$ \begin{align} &{{S}_{\theta }}\left( i \right)=\ \left[ \begin{matrix} \sum\limits_{j\in B_{i}^{\theta }}{I_{{{r}'}}^{2}}(j)~~~~~~~~&\sum\limits_{j\in B_{i}^{\theta }}{{{I}_{{{r}'}}}}(j){{I}_{{{t}'}}}(j) \\ \sum\limits_{j\in B_{i}^{\theta }}{{{I}_{{{r}'}}}}(j){{I}_{{{t}'}}}(j)&\sum\limits_{j\in B_{i}^{\theta }}{I_{{{t}'}}^{2}}(j)~~~~~~~~ \\ \end{matrix} \right]= \\ &\ \ \ \ \ \ \ \ \ \ \ \left[ \begin{matrix} \sum\limits_{j\in {{B}_{i}}}{I_{r}^{2}}(j)~~~~~~~~&\sum\limits_{j\in {{B}_{i}}}{{{I}_{r}}}(j){{I}_{t}}(j) \\ \sum\limits_{j\in {{B}_{i}}}{{{I}_{r}}}(j){{I}_{t}}(j)&\sum\limits_{j\in {{B}_{i}}}{I_{t}^{2}}(j)~~~~~~~~ \\ \end{matrix} \right]=S\left( i \right) \\ \end{align} $ (7)
图 5 旋转后的方形邻域和圆形邻域示意图 Figure 5 Schematic diagram of circular neighborhood and rectangular neighborhood after rotation

因而籍此计算的该像素点的主方向$\theta $和一致性值$c$不变.

2.3 基于环状扇区池化的HDO特征描述

为了实现抗旋转HDO特征描述, 采用环形空间池化策略, 如图 6所示, 其中每个圆环相当于传统HDO的Cell.显然, 无论图片怎么旋转, 每个圆环所包含的图像区域是不变的, 因此在环状区域内进行特征的池化操作, 可以实现抗旋转变换HDO特征描述.

图 6 图像的环状空间划分 Figure 6 Annular division of image

虽然采用环状空间池化操作可以获得旋转不变性, 但是正如其他文献所指出[12-14], 由于环状空间对图像描述过于粗糙, 依此进行特征池化获得的特征分辨性能较差, 因而在保证分辨性能的前提下, 有必要对环状区域进一步做扇区划分, 如图 7所示, 采用了四扇区环状划分.

图 7 四扇区环状空间划分 Figure 7 Four sections annular division of image

以每个圆环扇区为Cell单位提取其HDO特征, 然后分别按相邻四个扇区合并形成Block块, 以便在更大范围内归一化特征, 在图 7中, 把所有Cell区域按顺时钟方向, 从外到内, 分别以区域1, 2, 5, 6;区域2, 3, 6, 7;区域3, 4, 7, 8;区域5, 6, 9, 10;区域6, 7, 10, 11;区域7, 8, 11, 12;区域9, 10, 13, 14;区域10, 11, 14, 16;区域11, 12, 15, 16组合成Block块计算特征, 并按上述顺序进行特征组合, 就得到了最终的抗旋转变换HDO特征描述.

改进的抗旋转变换HDO特征描述处理步骤如下:

步骤1.将图像按图 7的环状扇区方式进行划分;

步骤2.图 4 (b)计算每个像素点的近似RGT梯度幅值;

步骤3.利用圆形邻域, 用式 (1) 构造每个像素点的结构张量, 利用式 (2) 和式 (3) 计算每个像素点的主方向和一致性值;

步骤4.以每个Block为单位, 统计每个Block块的主方向 (8个Bin) 直方图, 并做归一化处理;

步骤5.按从外环到内环, 从左上角开始按顺时针方向顺序组合特征向量, 形成具有抗旋转变换的HDO特征描述.

3 实验结果与分析 3.1 旋转性能测试

为验证特征的抗旋转特性, 在某人脸图片上采用相关度函数进行测试

$ \label{eq5} {P}\left( {F_{Y}, F_{M} } \right)=\frac{\langle F_{Y}, F_{M} \rangle}{\sqrt{F_{Y}, F_{Y} }\sqrt{F_{M}, F_{M} }} $ (8)

其中, $F_{Y} $和$F_{M} $分别表示样本图片和旋转图片的特征, $\langle\cdot, \cdot\rangle$表示内积. ${P}\left ({F_{Y}, F_{M} } \right)$表示$F_{Y} $和$F_{M} $的相关系数, 可以衡量特征的抗旋转能力, 平均相关度越大且标准差越小, 则抗旋转性越强.

图 8 (a)中四条线分别是原HDO算法、改进HDO环形分区、环状扇形四分区和环状扇形八分区所提取特征的相关系数曲线. 图 8 (b)是实验用40像素$\times$ 40像素的样本图和旋转后的图片. 表 1给出了图 9中另外五幅样本图片的平均相关度测试值, 可以观察到原HDO的平均相关度最小且标准差最大, 抗旋转能力最差, 改进HDO环形分区、环状扇形四分区和环状扇形八分区平均相关度都比原HDO大, 而标准差都比原HDO小, 表明改进的HDO算法抗旋转能力比原HDO强.

图 8 某测试图片旋转时的相关度计算示意图和相关度曲线 Figure 8 Schematic diagram and curve of correlation calculation of example test image rotation
表 1 图 9样本图片旋转的平均相关度计算值 Table 1 Fig. 9 sample average correlation calculation value of the image rotation
图 9 样本图片示例 Figure 9 Sample picture

图 8表 1可知, 原HDO特征在旋转0$^{\circ}$, 90$^{\circ}$, 180$^{\circ}$, 270$^{\circ}$和360$^{\circ}$时特征有较高的相关度, 但在其他旋转角度时特征相关度都比较低.而改进的HDO环形特征, 特征相关度能保证在0.7以上且比较稳定.但是改进的HDO环状扇形分区在图像空间划分上一定程度破坏了旋转不变性, 因此特征相关度比环形分区有所降低, 而且分区越多, 下降越大.

图 10给出了某人脸示例图片旋转后, 采用原HDO特征和改进的HDO环形分区特征的检测结果.其中, 图 10 (a)是原HDO特征的检测结果, 图 10 (b)是改进的HDO环形分区特征检测结果, 尽管在部分角度, 原HDO特征可以准确地检测人脸位置, 但在绝大多数情况, 其检测位置明显偏离理想位置, 而改进的HDO环形分区特征总是能准确地定位人脸位置, 展示出较理想的检测效果.

图 10 原HDO特征与改进HDO环形分区特征对人脸旋转图片检测结果 Figure 10 Test result in rotation image of original HDO and improved HDO with annular division
3.2 分类识别测试结果

为验证算法检测性能, 在公开的MIT人脸数据集上进行测试, 其中人脸图像2 429张, 非人脸图像4 548张, 各选1 500张作为训练样本, 其余作为测试样本集, 通过对所有训练样本和测试样本图片在0$^{\circ}$ $\sim $ 360$^{\circ}$范围内任意旋转后构造了更大的旋转人脸图像数据集.此外, 在某行人数据集上进行30$^{\circ}$以内小角度旋转测试, 其中行人正样本300张, 负样本600张.选取正样本200张, 负样本400张作为训练集, 剩下的作为测试集, 样本图片大小为64像素$\times$ 128像素.实验比较了传统的HDO特征和改进的HDO特征在: 1) 训练图片和测试图片都不旋转; 2) 训练图片不旋转, 测试图片旋转; 3) 训练图片和测试图片都旋转三种情况下的测试实验结果.另外搜集不同位姿的手掌图片和非手掌图片构建数据集, 并通过旋转构造了更大的旋转手掌图像数据集, 图片大小为90像素$\times$ 90像素, 其中正样本2 520张, 负样本2 880张, 各选取2 000张样本作为训练集, 其余作为测试集.不同于人脸和行人检测, 手掌图片本身含有各种位姿, 因此只做了一种测试.测试结果见表 2~4.本文实验在Windows 7系统下进行, 编程环境Matlab 2010, CPU主频2.9 GHz, 内存4 GB.

在改进HDO算法中, 将图片划分成若干个同心环, 然后将其等分为4个、8个和16个扇区, 在表 2表 3中, 比较了三种情况下的分类性能.

表 2 传统HDO和改进HDO人脸分类性能比较 (%) Table 2 Classification performance comparison between original and improved HDO ({\%)
表 3 传统HDO和改进HDO行人分类性能比较 (%) Table 3 Comparison of pedestrian classification perfor-mance between original HDO and improved HDO (%)
表 4 传统HDO和改进HDO手掌分类性能比较 (%) Table 4 Comparison of palm classification performance between original HDO and improved HDO (%)

表 2可知, 当训练和测试图片都不旋转时, 传统HDO算法和本文改进的HDO算法 (4扇区环形分区) 分类准确率基本持平, 达到92.11%, 改进的HDO算法8扇区环形分区和16扇区环形分区的准确率分别达到93.74%和93.82%.环形分区由于提取的特征维度比较低, 特征分辨性较差, 分类准确率只有81.72%.当训练图片不旋转, 测试图片旋转时, 传统HDO算法准确率只能达到64.65%, 而改进的HDO算法, 在采用4扇区、8扇区、16扇区环状空间划分以及环形分区的分类准确率分别达到74.98%、75.96%、76.18%和71.18%, 这充分说明本文特征描述方法具有良好的抗旋转性能.当训练集也加入旋转样本时, 传统HDO算法分类准确率提高到70.78%, 而改进的HDO算法在采用4扇区、8扇区、16扇区环状空间划分以及环形分区的分类准确率分别为74.25%, 74.05%, 74.14%和74.20%, 依然比传统HDO算法高4%左右, 性能提升相比于训练图片不旋转测试图片旋转的情况有所下降, 是因为当训练集包含了更多旋转情况的样本后, 一定程度上弥补了原HDO特征没有旋转不变性的缺陷, 因此性能提升幅度有所减小符合常识.尽管如此, 本文算法仍比原HDO算法性能要好, 说明本文算法在抗旋转能力方面的优越性. 表 3的行人识别和表 4的旋转手掌识别结果同样说明本文提出的改进HDO算法在抗旋转变换和鲁棒性上明显优于原HDO算法.

3.3 图像分块对特征性能的影响测试

表 5给出了图像分块大小对分类性能的比较, 在公开的MIT人脸图像集上分别对HDO环形分区、4扇区环形分区、8扇区环形分区以及16扇区环形分区进行分类测试.从表中可以看出,扇区区间不同及环与环之间的距离AW不同, 人脸图像的分类准确率也会不同.具体来看, 扇区越多, 环与环之间的距离AW越小, 分类性能越好, 但是随着分块越细, 特征维数大幅增加, 特征提取所需时间大量增加, 而性能提升有限.

表 5 图像分块大小分类性能比较 (%) Table 5 The image block size comparison on the performances of classification (%)

表 6给出了传统的HDO特征和改进的几种特征描述的时间开销, 给出行人数据库中带旋转样本的100张图片的特征提取时间开销的平均值.从表 6中可知, 随着分块减小, 时间会大幅增加.尽管改进的HDO环形分区特征在抗旋转能力以及特征提取方面要优于其他特征, 但由于空间划分较为粗糙, 不利于描述图像空间结构信息, 因此其在大规模图片测试时, 并没有展现出很高的分类准确率, 在图片不旋转时, 其分类准确率也只能达到81.72%, 远低于其他特征 (表 2).而采用4扇区划分时, 虽然抗旋转性能有所下降, 但由于特征分辨能力提高, 检测的鲁棒性增强, 也比较省时.综合考虑, 当图像尺寸较大, 在满足分类性能以及特征提取省时的前提下, 选取更加省时的4扇区环状空间划分方式.

表 6 特征提取时间 Table 6 Feature extraction time
3.4 与其他抗旋转局部特征算子的识别比较

为进一步验证算法在目标识别上的抗旋转性能, 我们用传统HDO算法以及本文改进的4扇区环形分区HDO算法和文献[5]文中的目标识别部分中提到RIFT[15]、SIFT[1]、DAISY[16]、MRRID[5]和MROGH[5]等描述子在三个数据集上进行实验对比.数据集53Objects包含53个目标对象, 每一个目标都有5个不同拍摄角度的5张图像.数据集ZuBuD包含201个建筑物, 每一个目标建筑物都有5个不同拍摄角度的5张图像.数据集Kentucky包含2 550个目标, 每个目标对象有4个不同角度拍摄的4张图像.按照文献[5]中的实验方法, 利用传统的HDO和改进的4扇区环形分区HDO算法进行目标识别实验, 实验结果见表 7.

表 7 不同局部描述子在三种数据集上的识别率比较 (%) Table 7 Comparison of different local descriptor in the recognition rate on the three data sets (%)

表 7可知, 本文的4扇区环形分区HDO算法在三个数据库中的识别率都较好, 表现出比RIFT、 SIFT、DAISY、MRRID、HDO更好的抗旋转性能.虽然在53Objects和ZuBuD数据库中的识别率要稍逊于~MROGH, 但也达到了68.2%和83.6%.在~Kentuky数据库中, 本文算法识别率达到75.4%, 优于其他局部描述子.实验结果表明, 本文提出的改进HDO算法优于现有的大部分算子, 具有良好的检测与识别能力.

3.5 合成人脸和手掌图像检测实验

图 11给出了两幅合成旋转人脸图像目标检测示例图, 图 11 (a)图 11 (b)的第1列图为样本图片, 图 11 (a)检测窗口大小跟样本图片大小一样, 为100像素$\times$ 100像素, 搜索步长10个像素, 图 11 (b)中搜索窗口为60像素$\times$ 60像素, 搜索步长5个像素, 图 11 (a)图 11 (b)中第2列为环形加扇形4分区检测结果, 第3列是原HDO检测结果.从中可以观测到, 虽然改进的环形4扇区HDO算法也存在一定的误检和漏检, 但其检测性能要优于原HDO算法.

图 11 合成旋转人脸检测示例 Figure 11 Diagram of composite rotating face detection

图 12是合成的旋转手掌检测结果图, 搜索窗口设置为90像素$\times$ 90像素, 搜索步长10个像素, 图 12中左图为环形4扇区检测结果图, 8个不同方向的手掌用改进的环形4扇区HDO算法基本上都能比较准确地检测出来, 而右图是原HDO算法的检测结果, 可以看到, 对于各个方向的手掌, 检测效果比较差, 存在较多的漏检及定位不准确的情况.上述实验结果表明, 改进的环形4扇区HDO算法相比原HDO算法具有良好的抗旋转不变性.

图 12 合成旋转手掌检测示例 Figure 12 Diagram of composite rotating palm detection
4 总结

针对传统HDO算法不具备旋转不变性的缺陷, 通过RGT变换, 构造结构张量时采用圆形邻域, 以及基于环状扇区空间池化操作, 提出了一种改进的具有抗旋转变换的HDO特征描述方法.本方法的抗旋转能力来源于在特征提取和空间池化操作时所做的改进, 由于RGT变换以及由此构建的结构张量具有旋转不变性, 尽管池化操作时的环状扇区划分不具有完全的旋转不变性, 但从相关度测试情况看, 其表现出了较强的抗旋转变换能力, 从公开的MIT人脸数据集和行人检测, 合成的旋转人脸和手掌测试结果来看, 本文方法在抗旋转变换和检测的鲁棒性方面具有令人满意的结果, 在~53Objects, ZuBuD和Kentuky三个数据集上的识别性能也优于大部分现有抗旋转算子.

参考文献
1 Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60 (2): 91–110. DOI:10.1023/B:VISI.0000029664.99615.94
2 Bay H, Tuytelaars T, Van Gool L. SURF:speeded up robust features. In:Proceedings of the 9th European Conference on Computer Vision. Graz, Austria:Springer-Verlag, 2006. 404-417
3 Dalal N, Triggs B. Histograms of oriented gradients for human detection. In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA:IEEE, 2005. 886-893
4 Kim W, Yoo B, Han J J. HDO:a novel local image descriptor. In:Proceedings of the 2014 IEEE International Conference on Image Processing. Paris, France:IEEE, 2014, 5671-5675
5 Fan B, Wu F C, Hu Z Y. Rotationally invariant descriptors using intensity order pooling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34 (10): 2031–2045. DOI:10.1109/TPAMI.2011.277
6 Song K C, Yan Y H, Chen W H, Zhang X. Research and perspective on local binary pattern. Acta Automatica Sinica, 2013, 39 (6): 730–744. DOI:10.1016/S1874-1029(13)60051-8
7 Guan W, You S Y. Robust image matching with line context. In:Proceedings of the 2013 British Machine Vision Conference. Bristol, UK:BMVA Press, 2013. 34.1-34.11
8 Takacs G, Chandrasekhar V, Tsai S, Chen D, Grzeszczuk R, Girod B. Unified real-time tracking and recognition with rotation-invariant fast features. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA:IEEE, 2010. 934-941
9 Chandrasekhar V, Takacs G, Chen D, Tsai S, Grzeszczuk R, Girod B. CHoG:compressed histogram of gradients a low bit-rate feature descriptor. In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA:IEEE, 2009. 2504-2511
10 Ojala T, Pietikäinen M, Mäenpää T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (7): 971–987. DOI:10.1109/TPAMI.2002.1017623
11 Wang Z H, Fan B, Wu F C. Local intensity order pattern for feature description. In:Proceedings of the 2011 International Conference on Computer Vision. Barcelona, Spain:IEEE, 2011. 603-610
12 Zeng Z, Lammas A, Sammut K, He F P. Optimal path planning based on annular space decomposition for AUVs operating in a variable environment. In:Proceedings of the 2012 IEEE/OES Autonomous Underwater Vehicles (AUV). Southampton, UK:IEEE, 2012. 1-9
13 Sadat E S, Behrad A. Star tracking and attitude determination using fuzzy based positional pattern and rotation compensation in Fourier domain. Multimedia Systems, 2015, 21 (4): 401–410. DOI:10.1007/s00530-014-0365-1
14 Nguyen T N, Miyata K. Multi-scale region perpendicular local binary pattern:an effective feature for interest region description. The Visual Computer, 2015, 31 (4): 391–406. DOI:10.1007/s00371-014-0934-5
15 Lazebnik S, Schmid C, Ponce J. A sparse texture representation using local affine regions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27 (8): 1265–1278. DOI:10.1109/TPAMI.2005.151
16 Tola E, Lepetit V, Fua P. A fast local descriptor for dense matching. In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA:IEEE, 2008. 1-8