自动化学报  2018, Vol. 44 Issue (6): 1138-1152   PDF    
前景约束下的抗干扰匹配目标跟踪方法
刘大千1, 刘万军2, 费博雯3, 曲海成2     
1. 辽宁工程技术大学电子与信息工程学院 葫芦岛 125105;
2. 辽宁工程技术大学软件学院 葫芦岛 125105;
3. 辽宁工程技术大学工商管理学院 葫芦岛 125105
摘要: 传统模型匹配跟踪方法没有充分考虑目标与所处图像的关系,尤其在复杂背景下,发生遮挡时易丢失目标.针对上述问题,提出一种前景约束下的抗干扰匹配(Anti-interference matching under foreground constraint,AMFC)目标跟踪方法.该方法首先选取图像帧序列前m帧进行跟踪训练,将每帧图像基于颜色特征分割成若干超像素块,利用均值聚类组建簇集合,并通过该集合建立判别外观模型;然后,采用EM(Expectation maximization)模型建立约束性前景区域,通过基于LK(Lucas-Kanade)光流法框架下的模型匹配寻找最佳匹配块.为了避免前景区域中相似物体的干扰,提出一种抗干扰匹配的决策判定算法提高匹配的准确率;最后,为了对目标的描述更加准确,提出一种新的在线模型更新算法,当目标发生严重遮挡时,在特征集中加入适当特征补偿,使得更新的外观模型更为准确.实验结果表明,该算法克服了目标形变、目标旋转移动、光照变化、部分遮挡、复杂环境的影响,具有跟踪准确和适应性强的特点.
关键词: 前景约束     抗干扰匹配     判别外观模型     决策判定     特征补偿    
A New Method of Anti-interference Matching Under Foreground Constraint for Target Tracking
LIU Da-Qian1, LIU Wan-Jun2, FEI Bo-Wen3, QU Hai-Cheng2     
1. School of Electronic and Information Engineering, Liaoning Technical University, Huludao 125105;
2. School of Software, Liaoning Technical University, Huludao 125105;
3. School of Business and Management, Liaoning Technical University, Huludao 125105
Manuscript received : June 17, 2016, accepted: December 10, 2016.
Foundation Item: Supported by National Natural Science Foundation of China (61172144), and Science and Technology Foundation of Liaoning Province (2012216026)
Author brief: LIU Da-Qian  Ph. D. candidate at the School of Electronic and Information Engineering, Liaoning Technical University. He received his master degree from Liaoning Technical University in 2016. His research interest covers image and visual information computing, target detection and tracking;
FEI Bo-Wen  Ph. D. candidate at the School of Business and Management, Liaoning Technical University. She received her master degree from Liaoning Technical University in 2016. Her research interest covers data mining and pattern recognition;
QU Hai-Cheng  Associate professor at the School of Software, Liaoning Technical University. He received his Ph. D. degree from Harbin Institute of Technology in 2016. His main research interest is remote sensing high performance computing technology
Corresponding author. LIU Wan-Jun    Professor at the School of Software, Liaoning Technical University. He received his master degree from Liaoning Technical University in 1991. His research interest covers image and visual information computing, target detection and tracking. Corresponding author of this paper
Recommended by Associate Editor SANG Nong
Abstract: The relation between a moving target and its image has not been fully considered in traditional model-matching tracking methods. The tracking drift problem may frequently occur when the target is occluded under a complex background. In this paper, a novel target tracking method, anti-interference matching under foreground constraint (AMFC), is proposed to solve this kind of problem. First, the method selects several initial frames from a vedio sequence for tracking training. Each of these frames is divided into several super-pixel blocks based on its color feature. These super-pixel blocks are combined into cluster sets by a mean shift algorithm to construct a discrimination appearance model. Then, a constrained foreground region is established using the expectation maximization (EM) model and a matching process is conducted based on the Lucas-Kanade (LK) optical flow method in order to select the optimum matching block. A decision-making algorithm is introduced to avoid the interference caused by similar targets in the foreground region, so as to increase the accuracy of the matching process. Moreover, in order to provide a more accurate target representation, an algorithm for appearance model online-updating is proposed. When a severe occlusion occurs, this algorithm can append appropriate feature compensations to the feature sets to improve the accuracy of the appearance model. Experimental results indicate that the proposed approach can provide superior tracking accuracy and adaptability, especially in the context of target deformation, target rotational movements, illumination changes, partial occlusion, and complex background.
Key words: Foreground constraint     anti-interference matching     discrimination appearance model     decision-making     feature compensation    

基于视频序列的运动目标跟踪技术是计算机视觉领域研究的热点问题, 在军事领域、人机交互、智能交通和医学图像处理[1-4]等领域发挥着重大作用.近年来, 国内外的专家学者围绕基于目标自身特征匹配[5-6]、基于运动估计[7-8]和基于模型匹配[9-10]这三种主流跟踪方法进行深入研究.基于目标自身特性匹配的跟踪方法, 在首帧中选取目标自身的特征信息, 并在其后帧中寻找该特征.寻找过程即为在视频序列中对目标的特征匹配和跟踪.常用的特征主要有几何形态、子空间信息、目标轮廓和特定特征点等, 例如SURF特征点检测和Harris角点检测.由于目标在不断移动过程中, 其自身特性(姿态、大小)也会发生改变, 具有随机性, 通常采用数字统计的方法来描述, 例如像素灰度直方图、边缘方向梯度图等.

基于运动估计的跟踪方法主要是通过预测下一帧中目标可能出现的区域, 并以区域中心向外扩充的方式对目标进行跟踪.在跟踪过程中如果对图像中所有场景信息逐一进行模型匹配, 需要处理大量冗余信息, 计算复杂度较高.基于运动估计的跟踪方法从一定程度上限制了目标的匹配范围, 降低了计算复杂度, 满足跟踪算法对时效性的要求.其中最具有代表性的是卡尔曼滤波方法.卡尔曼滤波是一种线性递归滤波, 主要针对当前序列状态对下一时刻目标的状态做出最佳评估.施华等[11]提出一种利用像素可信度和空间位置的跟踪方法, 通过卡尔曼滤波在时域中的背景模型与空间域的交叉熵协同实现对目标的检测和跟踪.

基于模型匹配的跟踪方法通过对目标的外观模型进行相似性分析来实现跟踪, 其中外观模型用来评估候选目标在特定位置的似然性, 在模型匹配中起着至关重要的作用.一种鲁棒的外观模型能够高效地解决场景中的光照变化、非目标物体遮挡、目标形态变化等问题.基于模型匹配的跟踪方法还分为基于整体模型的跟踪和基于局部模型的跟踪.基于整体模型的跟踪利用选定的目标区域建立整体模型进行模型匹配和跟踪. Babenko等[12]通过对选定目标区域进行正/负样本的学习模型, 从而构建判别式模型实现跟踪.基于局部模型的跟踪将目标区域进行分块处理, 利用分割的局部子区域进行匹配跟踪, 并实时更新局部模型, 例如Oron等[13]提出的局部无序跟踪(Locally orderless tracking, LOT)算法, 将目标分割为多个超像素块, 通过超像素块的匹配对目标进行跟踪, 同时利用粒子滤波对目标模型匹配加以约束, 使得跟踪具有较高的鲁棒性.徐如意等[14]在LK (Lucas-Kanade)图像配准框架下, 将稀疏表示目标跟踪算法利用求解的正则化来确定目标的特征模型, 并创建动态字典用于模型的实时更新, 从而准确跟踪目标. Wang等[15]提出一种超像素跟踪(Super-pixel tracking, SPT)算法, 从背景中提取目标构建一个具有区分度的判别外观模型, 通过使用最大后验估计和超像素置信度计算下一时刻目标可能出现的位置, 并实时更新外观模型.但基于模型匹配的跟踪方法仍存在一些问题, 例如在模型匹配过程中, 目标发生严重遮挡或图像背景较为复杂, 使得构建外观模型的难度增加且目标容易淹没在背景中, 导致跟踪漂移, 甚至丢失目标.

针对上述问题, 提出一种前景约束下的抗干扰匹配(Anti-interference matching under foreground constraint, AMFC)目标跟踪方法.首先在前$m$帧图像序列中使用简单的模型匹配算法进行跟踪, 确定$m$帧图像的目标区域, 利用超像素分割所获得的目标区域, 建立由若干超像素块组成的训练样本集, 将具有相同颜色特征的超像素块集合进行均值聚类组建簇集合, 计算每个簇的置信度概率, 建立初始判别外观模型.然后利用基于LK光流法框架下的模型匹配, 寻找最佳匹配块, 引入高斯噪声模型防止强光照对目标跟踪的影响.同时, 算法还引入决策判定, 避免前景区域中相似物体的干扰, 进而实现精确的目标跟踪.最后利用EM (Expectation maximization)模型估计下一帧图像的前景参数信息, 并对目标是否发生严重遮挡进行判断, 若发生遮挡, 在特征集中加入适当补偿, 即可获得新的判别外观模型.

本文的主要贡献为: 1)将图像的前几帧作为训练样本集, 通过聚类构建目标模型, 滤除背景信息的干扰, 得到较鲁棒的目标模型. 2)对图像帧中的前景信息进行估计, 对局部模型的匹配过程进行约束.只在前景区域中寻找最佳匹配的超像素块, 达到局部最优匹配. 3)在匹配过程中引入决策判定, 只保留限定区间内的最佳匹配块, 排除与目标相似物体的干扰, 提高算法匹配抗干扰性. 4)在模型更新中对目标是否发生严重遮挡进行判断, 若发生遮挡, 在特征集中加入适当补偿, 使更新的外观模型对目标的描述更加准确.

1 算法概述

AMFC算法分为建立判别外观模型、局部模型匹配和模型更新三个过程.算法流程如图 1所示.

图 1 AMFC算法流程示例图 Figure 1 The flow diagram of AMFC algorithm

1) 建立判别外观模型.在前$m$帧图像序列中使用简单的模型匹配算法进行跟踪, 确定$m$帧图像的目标区域, 再利用超像素分割每帧获得的目标区域, 建立由若干超像素块组成的训练样本集; 然后利用均值聚类算法将具有相同颜色特征的超像素块集合到一个簇中, 从而组建簇集合; 最后, 计算每个簇的置信度概率, 判断其是否属于目标区域, 从而利用超像素块的特征以及置信度概率建立初始判别外观模型.

2) 局部模型匹配.利用基于LK光流框架下的模型匹配, 对于新的图像帧估计目标的前景区域, 在此区域中进行最佳模型匹配, 计算每个超像素块的匹配概率, 寻找最佳匹配块, 同时引入高斯噪声模型和决策判定, 防止强光照以及前景区域中相似物体对目标跟踪过程的干扰.反复此过程, 完成目标模型的匹配, 从而对目标进行准确跟踪.

3) 外观模型的更新.首先利用EM模型估计下一帧图像的前景参数信息, EM模型由两部分组成: E步估计前景信息, M步进行参数优化.然后判断目标是否发生严重遮挡, 若没有发生严重遮挡, 则利用最新帧的跟踪结果替换外观模型中最旧帧, 若发生严重遮挡, 则选择与当前最近帧作为被替换帧, 并将被替换帧中的部分特征作为补偿集, 合并到当前帧的特征集合中, 对该聚类集合重新计算置信度获得新的判别外观模型.

2 相关工作 2.1 超像素分割

超像素分割是将视频帧图像分割成许多位置相近且特征大致相同(颜色、梯度、亮度等)的子区域, 即为像素点的集合.超像素分割是一种过分割算法, 每个子区域具有某种近似相同的特征, 而相邻子区域在这种特性的度量下有所不同, 分割效果明显, 因此超像素块可以清楚地描述目标的局部特征.超像素分割将许多像素点聚集成易于理解和计算的子区域, 通常情况下, 这些视频帧的子区域都是均匀分布的, 可将其作为一个整体来处理, 这些子区域也被称为超像素块.

基于像素级的目标跟踪算法往往不符合人类视觉注意机制的成像特点, 由于人类视觉注意机制的焦点往往不是某个单一像素点, 而是将这些像素点组合成一整块区域用于特征的识别.以超像素块作为基本跟踪单元代替像素进行建模, 保留了丰富的图像结构特征信息, 与采用直方图、轮廓等特征的目标跟踪算法相比具有更强的特征描述能力.本文利用Achanta等提出的基于颜色相似度和空间距离的简单线性迭代聚类(Simple linear iterative clustering, SLIC) [16]进行超像素分割.其特点为分割后的超像素块紧凑性好、边缘贴近度高、大小均匀且运算速度较快.

2.2 LK算法

LK算法[17]是将目标跟踪问题视为在每一帧中某一己知邻域内寻找最佳匹配问题.给定跟踪目标的模型, 通过求解最优化问题来定位跟踪目标.

$T$为目标模型, 模型中的像素点集表示为$PIXEL = \{ pixel\}_{i = 1}^n$, 其中, $pixel = (x, y)$, 表示像素点的横纵坐标. $I$为第$t$帧图像, 图像像素$I (W(pixel, w))$由模型像素$T(pixel)$通过$W(pixel, w)$函数相似转化得到, $w$为转化位置参数.已知在第$t-1$帧图像的估计位置, 即给出$w^{t - 1}$.在第$t$帧图像中寻找更新参数$\Delta w$, 使得$w=w^{t - 1}$ $+$ $\Delta w$取最小值, $\Delta w$应满足

$ \begin{align} \Delta w =& \arg \min \sum\limits_{pixel \in PIXEL} \Big[I(W(pixel, w^{t - 1} + \\ &\ \Delta w))-T(pixel)\Big]^2 \end{align} $ (1)

由于无法一次计算出最优参数$w, $因此估计一组参数$\Delta w$用于每次迭代中更新前一次的参数$w$, 设定一阈值\(\varepsilon \)作为终止条件.终止条件为:当$(\|\Delta w\|$ $\le$ $\varepsilon )$

$ \begin{align} w = {w^{t - 1}} + \Delta w \end{align} $ (2)
3 前景约束下的抗干扰匹配跟踪

AMFC算法分为三个过程: 1)建立基于超像素块的判别外观模型; 2)引入决策判定的前景约束性抗干扰局部模型匹配; 3)引入补偿集的外观模型更新方法.

3.1 建立判别外观模型

为了建立可以区分背景的外观模型, 需要一个样本集进行训练.首先利用简单的EMD模型匹配算法[18]跟踪前$m$帧(在本文实验中$m$取4)视频图像序列, 确定每帧图像中目标的位置信息.然后通过SLIC算法分割每个训练图像帧中扩展的目标区域(以圈定目标区域的中心为中心点, 对角线长度为目标区域对角线的1.5倍进行扩展), 得到${N_t}$个超像素块$pixe{l_i}$.在第$t$帧图像中, 通过集合$F=\{ f_t^x|t$ $=$ $1, \cdots, m;x = 1, \cdots, N\} $表示${N_t}$个超像素块的特征集合.

由于分割算法是对目标的扩展区域进行分割, 获取的超像素块包含了对目标以及背景区域的描述, 所以应用均值漂移(Mean shift, MS)算法[19]对特征集合进行聚类, 获得$n$个簇$clst(i)$ $(i = 1, \cdots, n)$, 每个簇包括簇中心${f_c}(i)$ (其为特征矢量, 表示它包含的所有超像素块的特征均值)、簇半径${r_c}(i)$和簇成员$\{ f_t^x|f_t^x \in clst(i)\}$.将$n$个簇对应到$m$个训练帧图像的局部区域.

通过聚类获得$n$个簇, 记每个簇区域包含$S(i)$个超像素块.若这些超像素块都位于目标区域中, 则该聚类簇属于目标区域, 若这些超像素块都位于背景区域中, 则该聚类簇属于背景区域.但在大多数情况下, 超像素集合往往部分属于目标区域, 部分属于背景区域, 需要引入置信度的计算.设与目标区域相对应的超像素块数记为$Y(i)$, 对应到背景区域的超像素块数记为$E(i)$, 即$S(i) = Y(i) + E(i)$.为每个簇$clst(i)$ $(i = 1, \cdots, n)$分配一个权值, 记为聚类的置信度$C_i^c$ $(C_i^c \in [ - 1, 1])$.

$ \begin{align} C_i^c = \frac{{Y(i) - E(i)}}{{S(i)}}, \quad \forall i = 1, \cdots, n \end{align} $ (3)

其中, $C_i^c$表示簇$clst(i)$ $(i =1, \cdots, n)$是否属于目标区域.当$C_i^c \geq 0$时, $clst(i)$属于目标区域, 值越大表明越偏向于目标区域.即

$ \begin{align} pixe{l_i} = \begin{cases} \mbox{目标区域}, & C_i^c \geq 0\\ \mbox{背景区域}, & C_i^c < 0 \end{cases} \end{align} $ (4)

利用式(3)和式(4)判断聚类簇是否属于目标区域, 从而建立判别外观模型, 建立过程如图 2所示.需要指出的是, 在图 2 (d)中, 超像素块的置信度($C_i^c$)越高, 则表示该超像素块越偏向目标; 超像素块的置信度低, 则表示该超像素块越偏向背景.

图 2 建立判别外观模型过程 Figure 2 Procedure of establishing discriminant appearance model
3.2 抗干扰模型匹配 3.2.1 前景区域划分

定义1.在模型匹配时, 定义一个二进制变量$h_{pixel}^I $表示图像像素是否属于前景区域, 即

$ \begin{align} h_{pixel}^I = \begin{cases} 1, &pixel \in \mbox{目标区域}\\ 0, &pixel \in \mbox{背景区域} \end{cases} \end{align} $ (5)

利用带参数的伯努利分布表示图像像素是否属于前景, 即

$ \begin{align} {{p}}(h_{pixel}^I = 1) = v, ~~~ {{p}}(h_{pixel}^I = 0) = 1 - v \end{align} $ (6)

引入变量$h_{pixel}^I $有以下优点:

1) 利用目标模型进行匹配, 有时背景超像素块也可能与目标模型匹配, 导致目标圈定漂移, 甚至会丢失目标.将匹配的图像帧分为前景和背景进行判定, 如果匹配的是背景像素, 则自动舍弃, 不做圈定, 从而达到局部特征自适应匹配, 避免了跟踪过程中的漂移现象.

2) 虽然Oron等也利用目标的前景/背景信息进行局部匹配, 但引入双重二进制判断前景/背景信息, 增加了算法的时间复杂度.本文算法借助其思想, 引入前景区域判别, 并在目标模型建立时对前景/背景信息加以区别, 所以在匹配过程中只引入单一判断变量, 降低算法的时间复杂度.

3.2.2 高斯噪声模型

利用超像素块的灰度特征进行模型匹配时, 易受到光照变化的影响.当光照变化强烈时, 为了使算法能够保持较准确的跟踪, 本文引入高斯噪声模型抑制光照变化的影响.

定义2.加噪后的模板称为噪声模板, 定义为$\widetilde T $.加噪后的图像称为噪声图像, 定义为$\widetilde I $, 构建的高斯模型为

$ \begin{align} &{{p}}({\widetilde T_{pixel}}|{T_{pixel}}) = G({\widetilde T_{pixel}}|{T_{pixel}}, \sigma ) \\ & {{p}}({\widetilde I_{pixel}}|{I_{pixel}}) = G({\widetilde I_{pixel}}|{I_{pixel}}, \sigma ) \end{align} $ (7)

设定局部匹配子空间(超像素块)用$\Omega $表示, 则局部匹配概率为

$ \begin{align} &{{{p}}_\Omega }(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}, {\widetilde I_{pixel}}, {\widetilde T_{pixel}})=\\ &\qquad {{p}}(h_{pixel}^I){p}({I_{pixel}}|h_{pixel}^I){p}({T_{pixel}}) \times \\ &\qquad G{({T_{pixel}} - {I_{pixel}}|{I_{pixel}}, \sqrt 2 \sigma )^{h_{pixel}^I}} \end{align} $ (8)

具体推导过程见附录A.由于Singer1图像序列中光照变化明显, 在本文实验中$\sigma $值的选取主要根据该图像序列来确定. Singer1图像序列中$\sigma $值与平均中心误差之间的关系如图 3所示.

图 3 $\sigma$值与平均中心误差之间的关系 Figure 3 The relationship between the $\sigma$ value and average center error

图 3中, 横坐标表示选取$\sigma $值的大小, 纵坐标表示计算在Singer1视频图像序列中跟踪结果的平均中心误差.由此可以看出, 当选定$\sigma \in [0.25, 0.35]$时, 算法的跟踪效果最佳.加入噪声模型($\sigma = 0.25$)与不加入噪声模型的跟踪结果如图 4所示.从图中可以看出, 当光照变化剧烈时, 加入高斯噪声(深色矩形框)可以较为明显地提高跟踪准确性.

图 4 加入噪声模型对比结果 Figure 4 Comparison results of noise model
3.2.3 最优化模型匹配

在局部模型匹配的过程中, 最重要的是寻找最佳匹配超像素块.利用LK光流法进行模型匹配, 寻找LK最优化匹配问题等价于搜索最大似然像素集, 具体证明过程见附录B.

采用式(9)计算最大似然匹配像素集.

$ \begin{align} \max\limits_\theta \log {{p}}(T, {I_w}|\theta ) \!=\! \max\limits_\theta \log {{p}}(T, {I_{{w^{t - 1}} + \Delta w}}|\theta ) \end{align} $ (9)

其中, $\theta = \{ v, \sigma , w\} $.由像素之间的独立性可以得到:

$ \begin{align} &\log p(T, {I_w})=\notag\\ &\qquad \sum\limits_{pixel \in PIXEL} \sum\limits_{h_{pixel}^I \in \{ 0, 1\} } \log p(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}) \end{align} $ (10)

其中, ${p}(h_{pixel}^I, {I_{pixel}}, {T_{pixel}})$在附录A中给出.

$ \begin{align} &{{{p}}_\Omega }(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}) = \notag\\ &\qquad p({I_{pixel}})p(I_{pixel}|h_{pixel}^I)p({T_{pixel}}) \times\notag\\ &\qquad G{({T_{pixel}} - {I_{pixel}}|{I_{pixel}}, \sqrt 2 \sigma )^{h_{pixel}^I}} \end{align} $ (11)

模型匹配即通过局部匹配概率计算最大似然匹配概率.

3.2.4 决策判定

在前景区域中有相似物体干扰时(例如局部遮挡), 所找到的最佳匹配块往往不能准确地显示被跟踪目标, 因此算法分两步操作避免相似物体的干扰.

在匹配最佳块时, 前景区域中相似物体的干扰处理是必要的.假设在目标连续运动的情况下, 计算相邻帧各个最佳匹配块中心距离, 即

$ \begin{align} {d_i} = \sqrt {{{({x_i} - {x'_i})}^2} + {{({y_i} - {y'_i})}^2}} \end{align} $ (12)

其中, ${d_i}$为相邻帧最佳匹配块间的中心距离, ${x_i}$${y_i}$分别为第$t$帧第$i$个像素块中心点的横纵坐标, ${x'_i}$${y'_i}$分别为第$t-1$帧第$i$个像素块中心点的横纵坐标.对${d_i}$取平均, 即$\bar d = \frac{1}{n}\sum_{i = 1}^n {{d_i}} $.设定度量阈值区间为$\bar d \pm \Delta d$ (在本文实验中, $\Delta d$取平均中心距离的1/5), 对相邻帧间的最佳匹配块进行判定, 若距离${d_i}$不在该区间范围内, 则自动舍弃, 只保留在该区间内的最佳匹配块.在圈定目标时, 利用$\bar d$估计被舍弃的匹配块位置, 将其与保留的匹配块相结合确定最优目标区域.

匹配块位置信息示意如图 5所示.图 5 (a)表示在$t-1$帧中圈定的最优前景区域.假定由4个最佳匹配块组成, 第$t$帧中匹配块位置如图 5 (b)所示.最佳匹配块1不在度量阈值区间($\bar d \pm \Delta d$)内, 则被舍弃, 改用$\bar d$重新估计匹配块1的位置从而得到第$t$帧的最优目标区域.

图 5 匹配块位置信息示意图 Figure 5 Diagram of matching block location information

为了验证决策判定的有效性, 采用Basketball图像序列进行跟踪测试, 测试结果如图 6所示.图 6 (a)为加入决策判定的跟踪结果, 图 6 (b)为没有加入决策判定的跟踪结果.从这两组图中可以明显看出引入决策判定较好地解决了前景区域相似物体干扰的情况, 使得算法的跟踪结果更为准确.

图 6 决策判定的有效性验证 Figure 6 The effectiveness verification of decision-making
3.2.5 光流迭代寻优

光流迭代寻优即为给定跟踪目标的模型($T$), 通过求解$\max_{\Delta w} \log p (I(W(pixel, {w^{t - 1}} + \Delta w))|T)$最优化问题来定位跟踪目标.由附录B的LK最优化匹配问题证明, 可以得到最优化解.

$ \begin{align} &\max\limits_{\Delta w} \log p (I(W(pixel, {w^{t - 1}} + \Delta w))|T) = \\ &\qquad \max\limits_{\Delta w} \sum\limits_{b \in (0, 1)} {\bigg[\sum\limits_{pixel \in PIXEL} {{{p} _{old}}(h_{pixel}^I = b)} } \times \\ &\qquad\log p ({I_{pixel}}|h_{pixel}^I = b) -\dfrac{1}{{2{\sigma ^2}}} \times \\ &\qquad \sum\limits_{pixel \in PIXEL} {{{p} _{old}}(h_{pixel}^I = 1)} {({T_{pixel}} - {I_{pixel}})^2}\bigg] \end{align} $ (13)

其中, ${{p}_{old}} = p(h_{pixel}^I|{I_{pixel}}, {T_{pixel}};{\theta _{old}})$.将式(13)进行一阶泰勒展开, 然后求导(具体过程见附录C), 可得

$ \begin{align} \Delta w =& \left[\sum\limits_{pixel \in PIXEL} Q(pixel)[T(pixel)\right.- \\ &\ I(W(pixel, w))] \times \nabla I\frac{{\rm d}W(w)}{{\rm d}w} - \\ &\ \dfrac{1}{2}\left(\sum\limits_{pixel \in PIXEL} {{Q_0}(pixel)} \nabla {I_0}\frac{{{\rm d}W(w)}}{{{\rm d}w}}\right.+ \\ & \left.\left. \sum\limits_{pixel \in PIXEL} {{Q_1}(}pixel) \nabla {I_1}\frac{{{\rm d}W(}w)}{{{\rm d}w}}\right)\right] \times \\ & \ \Bigg[{\sum\limits_{pixel \in PIXEL} {Q(}pixel)\left(\nabla {I_0}\frac{{{\rm d}W(}w)}{{{\rm d}w}}\right)} ^{\rm T} \times \\ & \left(\nabla {I_0}\frac{{{\rm d}W(}w)}{{{\rm d}w}}\right)\Bigg]^{ - 1} \end{align} $ (14)

其中, ${I_0} = \log {p}(h_{pixel}^I= 0)$表示背景图像区域, ${I_1} = \log {p}(h_{pixel}^I= 1)$表示前景图像区域, ${Q_0}(pixel)$ $={p_{old}}(h_{pixel}^I(W(pixel, w) = 0))$为当前帧背景图像${I_0}$的似然估计的权重函数, ${Q_1}(pixel)$ $=$ ${{p}_{old}}(h_{pixel}^I(W(pixel, w) = 1))$为当前帧前景图像${I_1}$的似然估计的权重函数, $Q(pixel)={1}/{(2{{\sigma ^2}})}$ $\times$ ${{p}_{old}}(h_{pixel}^I(W(pixel, w) = 1$, $ I(W(pixel, w)-$ $T(pixel))$ $=0))$为对输入图像$I$通过传统LK算法目标函数的相似性度量.

3.3 模型更新 3.3.1 前景模型更新

利用文献[13]解决存在隐含变量优化问题的EM算法估计隐含变量$h_{pixel}^I$. EM算法利用优化参数$\theta$估计隐含变量$h_{pixel}^I$, 过程如下:

E步:已知前一帧参数${\theta _{old}}$, 当前帧图像$I$和匹配模型$T$, 可求出隐藏变量$h_{pixel}^I$的概率分布$\sum_{pixel \in PIXEL} {p(h_{pixel}^I|{I_{pixel}}, {T_{pixel}};{\theta _{old}})} $. $h_{pixel}^I$是二进制变量, 则所有像素的条件概率可以写成

$ \begin{align} &p(h_{pixel}^I = b|{I_{pixel}}, {T_{pixel}}) =\notag\\[1mm] &\qquad \dfrac{{p(h_{pixel}^I = b, {I_{pixel}}, {T_{pixel}})}}{{\sum\limits_{a \in \{ 0, 1\} } {p(h_{pixel}^I = a, {I_{pixel}}, {T_{pixel}})} }} \end{align} $ (15)

其中, ${{b}} \in \{ 0, 1\} $.

M步:对参数$\theta $进行优化.

$ \begin{align} {\theta _{new}} =&\ \arg \max \sum\limits_{pixel \in PIXEL} {\sum\limits_{h_{pixel}^I \in \{ 0, 1\} } {{{p}_{old}}} } \times\notag \\ &\ \log p (h_{pixel}^I, {I_{pixel}}, {T_{pixel}}) \end{align} $ (16)

其中, ${{p}_{old}} = {p}(h_{pixel}^I|{I_{pixel}}, {T_{pixel}};{\theta _{old}})$.

3.3.2 外观模型的更新

传统的外观模型更新方法是在跟踪若干帧后(通常取5帧或10帧), 用最新帧的跟踪结果代替聚类库中的最旧帧来重建外观模型.这类方法当目标发生严重遮挡时易出现跟踪漂移甚至丢失目标的情况.

针对在跟踪过程中是否发生严重遮挡的问题, 本文定义一个遮挡阈值${\theta _0}$ (${\theta _0}$取0.7)与当前帧计算的遮挡阈值${\theta _t}$进行比较, 如果${\theta _t} < {\theta _0}$, 则判定目标发生严重遮挡.遮挡阈值为当前帧中目标区域置信度与前$m$帧跟踪的目标区域置信度均值之比, 即

$ \begin{align} {\theta _t} = \frac{{C_t}}{mean({C_t}, {{\mathop{ C}\nolimits} _{t - 1}}, \cdots, {C_{t - m + 1}})} \end{align} $ (17)

若未发生严重遮挡, 则利用最新帧的跟踪结果与外观模型中最旧帧进行替换, 重建外观模型(每10帧更新一次), 若发生严重遮挡, 则选择与模型中当前最近帧作为被替换帧, 并在此帧中选择$n_{cluster}$个聚类特征(其聚类特征的置信度大于0, 即属于目标区域的特征)作为跟踪当前帧的补偿集.在实验中$n_{cluster}$取10, 若替换帧中属于目标区域的特征不足10个, 则将这些置信度大于0的特征直接作为补偿集.将补偿集合并到当前帧的特征集中(严重遮挡下), 作为新的特征集合加入聚类特征集合, 完成聚类集合的更新.然后对该聚类集合重新计算置信度, 即可获得新的判别外观模型.

加入补偿集的判别外观模型效果如图 7所示.从图 7中可以看出, 只通过替换整帧图像来更新外观模型无法表示目标被严重遮挡的区域, 使得外观模型不能有效地描述目标, 当遮挡消失时, 建立的外观模型无法准确地识别目标被遮挡的部分, 这样导致跟踪结果不够准确.而引入补偿集后, 外观模型能够识别目标被遮挡的部分, 使得算法的跟踪效果较为准确.

图 7 判别外观模型的对比效果 Figure 7 The contrast effects of discrimination appearance model
4 实验结果与分析

本文算法在MATLAB R2012b环境下实现.计算机环境: CPU为Intel Core i7, 内存为16 GB.算法对每一组图像序列都在第一帧人工标出目标区域.

为了验证本文算法的性能, 在吴毅提出的目标跟踪评测标准[20]上选取12组具有代表性的图像序列以及8种跟踪算法进行对比实验, 以保证实验的可信性和全面性.同时与近几年较为流行的LOT (Locally orderless tracking)和SPT (Superpixel tracking)跟踪算法进行对比, 验证算法的有效性和实用性. 12组图像序列分别是Girl、Deer、Bird2、Football、Lemming、Woman、Bolt、CarDark、David1、David2、Singer1和Basketball.这些图像序列基本涵盖光照变化、部分遮挡、目标形变、复杂背景等在跟踪过程中具有挑战性的因素. 8种跟踪算法分别为ASLA (Adaptive structural local sparse appearance) [21]、FRAG (Fragments-based tracking) [22]、SCM (Sparsity-based collaborative model) [23]、VTD (Visual tracking decomposition) [24]、L1APG (L1 tracker using accelerated proximal gradient approach) [25]、CT (Compressive tracker) [26]、OAB (Online AdaBoost tracker) [27]、TLD (Tracking-learning-detection) [28].本文采用3种评估标准来评价算法的整体性能, 分别为中心误差[29]、跟踪重叠率[30]和运行效率.中心误差是真实目标中心与算法跟踪的目标中心之间欧氏距离的误差, 以像素为测量单位来评价算法的精度; 跟踪重叠率是人工标注12组图像帧序列中目标的位置; 应用重叠指数$score$评估跟踪性能.

$ \begin{align} score = \frac{{area({R_{\rm{T}}} \cap {R_{\rm{G}}})}}{{area({R_{\rm{T}}} \cup {R_{\rm{G}}})}} \end{align} $ (18)

式中, $area$表示区域面积, \({R_{\rm{T}}}\)表示标记实际面积, \({R_{\rm{G}}}\)表示跟踪输出面积. $score$值越大意味着算法具有良好的跟踪定位精度, 即跟踪的成功率越高.实验中用到的图像帧序列信息见表 1.

表 1 实验图像序列信息 Table 1 The information of the test image sequences
4.1 实验参数

在视频图像序列的前几帧中, 目标的运动并不会出现较大程度的偏移, 提取这些帧中的目标信息作为训练样本得到的目标模型更鲁棒.由于跟踪实时性在整个算法的评价中是一个重要指标, 本文在保证算法跟踪成功率的前提下, 减少一些超像素分割、聚类、计算置信度的时间来满足算法实时性要求, 所以取$m=4$.

超像素分割的块数$N=100$.利用SLIC算法分割每个训练图像帧中扩展的目标区域(以圈定目标区域的中心为中心点, 对角线长度为目标区域对角线的1.5倍进行扩展).在小区域内进行分割, 若分割的块数过多会出现``过分割''现象, 而分割块数太少又无法完全分离无关背景信息.本文借助前人的经验(SPT算法), 考虑到算法的实时性和准确性要求, 取$N=100$.

$\sigma$值的选择上, 不同的视频由于光照变化存在差异, 所以选择的$\sigma$值也会有所差异, 但为了保证实验的统一性和公平性, 考虑加入高斯噪声模型的意义在于抑制光照变化对跟踪的影响, 本文以实验中光照变化明显的Singer1视频序列中的$\sigma$值作为最优选择, 即$\sigma=0.25$.

4.2 实验结果

实验比较的11种跟踪算法在12个图像序列上平均中心误差见表 2, 11种跟踪算法在12个图像序列上的跟踪重叠率见表 3.

表 2 不同跟踪算法的平均中心误差 Table 2 Average center errors of different tracking algorithms

表 2表 3可以看出, 在大部分实验序列中, AMFC算法优于同类算法(LOT算法和SPT算法).不仅如此, 与其他8个当前主流的跟踪算法相比, AMFC算法也具有较大优势, 而且AMFC算法在所有图像序列上的平均中心误差及跟踪重叠率均是最优秀的.这表明本文提出的AMFC算法是合理有效的, 达到甚至超过了当前主流算法的跟踪效果.图 8是11种跟踪算法在12组图像序列中的跟踪结果.

图 8 11种跟踪算法在12组图像序列中的跟踪结果 Figure 8 Tracking results of the 11 algorithms in the 12 image sequences
表 3 不同跟踪算法的跟踪重叠率 Table 3 Tracking overlap ratio of different tracking algorithms
4.3 算法准确性分析

图像序列David2, Girl和Basketball主要用于测试当目标发生旋转时算法的跟踪效果. David2序列的跟踪效果如图 8 (j)所示, Girl序列的跟踪效果如图 8 (a)所示, Basketball序列的跟踪效果如图 8 (l)所示.在David2序列中, 当目标发生小范围旋转时, 大部分跟踪算法都能较准确地跟踪目标.在Girl序列中, 当目标发生旋转且在部分图像帧中目标(人脸)背对摄像机时, SCM, VTD, OAB, TLD, SPT和AMFC算法的跟踪效果较为理想.在Basketball序列中, 当目标发生旋转且背景较为复杂时, 仅VTD, SPT和AMFC算法依然保持较好的跟踪效果.综合这三组图像序列, AMFC算法的跟踪效果最好, 平均重叠率为0.69.相比同类算法(LOT算法和SPT算法), AMFC算法利用目标的外观信息构建局部先验模型, 通过前景信息进行目标匹配跟踪.当发生旋转时, 目标的局部前景信息发生改变, 此时需要不断地进行模型更新.在模型更新时, 选择与当前最近帧作为被替换帧, 并将被替换帧中的部分特征作为补偿集合并到当前帧的特征集合中, 从而得到新的判别外观模型, 使得算法能够更准确地跟踪目标.

图像序列Singer1, CarDark和David1主要用于测试当发生光照变化时算法的跟踪效果. Singer1序列的跟踪效果如图 8 (k)所示, CarDark序列的跟踪效果如图 8 (h)所示, David1序列的跟踪效果如图 8 (i)所示.在Singer1序列中, 当图像中光照变化强烈时, 大部分跟踪算法都能较准确地跟踪目标.在CarDark序列中, 当图像中存在较强烈光照变化且目标移动较快时, ASLA, FRAG, SCM, VTD, L1APG和AMFC算法有较好的跟踪效果.在David1序列中, 图像中存在较强烈光照变化且目标发生形变时, ASLA, SCM, L1APG, SPT和AMFC算法能够保持较好的跟踪效果.但相比较而言, AMFC算法的平均跟踪重叠率(0.77)虽高于同类算法, 但略低于SCM算法(0.79).虽然AMFC算法加入了高斯噪声模型, 增强了模型的自适应性, 在进行局部模型匹配时具有较高的准确性, 但由于光照变化强烈, 在局部模型匹配时会发生轻度漂移, 并且算法利用目标的灰度特征, 这样的匹配成功率与SCM算法相比较低.如果将本文算法的噪声模型系数$\sigma$上调, 跟踪效果优于其他跟踪算法, 但为了保持实验的公平性, 并没有将此结果作为参考.

图像序列Bird2, Woman和Bolt主要用于测试当目标发生形变时算法的跟踪效果. Bird2序列的跟踪效果如图 8 (c)所示, Woman序列的跟踪效果如图 8 (f)所示, Bolt序列的跟踪效果如图 8 (g)所示.在Bird2序列中, ASLA, FRAG, SCM, L1APG, TLD, SPT和AMFC算法都获得了较好的跟踪重叠率.在Woman和Bolt序列中目标存在严重的形变, 仅SCM, SPT, AMFC有较好的跟踪效果.在这3组图像序列中, AMFC算法的跟踪效果最佳, 平均重叠率为0.74.相比同类算法, 本文利用前景约束下的超像素块进行局部匹配, 可以较准确匹配目标的局部信息, 并在更新外观模型时引入一种新的在线外观模型更新算法, 对特征集加入适当特征补偿, 使得在目标发生形变时外观模型能够更准确地描述目标.

图像序列Football, Lemming和Woman主要用于测试当目标发生遮挡时算法的跟踪效果. Football序列的跟踪效果如图 8 (d)所示, Lemming序列的跟踪效果如图 8 (e)所示, Woman序列的跟踪效果如图 8 (f)所示.在Football和Lemming序列中, 当图像中目标发生局部遮挡时, 绝大多数跟踪算法都能较准确地跟踪目标.在Woman序列中, 目标发生严重遮挡时, 大部分跟踪算法的跟踪重叠率都有所降低, 但AMFC算法的跟踪效果较好.与同类算法相比, AMFC在前景区域判别时, 总是寻找最佳块匹配, 虽然发生严重遮挡(甚至全局遮挡)时会出现局部漂移, 但随着遮挡的减弱, 算法会快速重新跟踪目标, 避免了跟踪丢失现象.此外, AMFC算法引入决策判定, 只保留在该区间内的最佳匹配块, 避免前景区域中相似物体的干扰.利用EM模型预测下一帧目标的前景信息, 即使目标与背景像素相近且运动较快时, 算法依然能够较好地估计目标位置, 并准确匹配目标的局部信息, 使得跟踪成功率较高.

图像序列Bolt, Basketball和Deer主要用于测试当目标处于复杂背景中算法的跟踪效果. Deer序列的跟踪效果如图 8 (b)所示, Bolt序列的跟踪效果如图 8 (g)所示, Basketball序列的跟踪效果如图 8 (l)所示.在Bolt序列中, 当目标处于复杂背景且运动较快时, SCM, LOT, SPT和AMFC算法的跟踪重叠率较高.在Basketball序列中, 当目标处于复杂背景且发生局部遮挡时, 只有VTD, SPT和AMFC算法的跟踪重叠率较高.在Deer序列中, 当目标处于复杂背景且背景颜色与目标相似时, 仅ASLA, VTD和AMFC算法的跟踪效果较好.但综合这三组图像序列, AMFC的跟踪效果最好, 平均重叠率为0.69.相比同类算法, AMFC算法利用下一帧估计的前景信息作为约束条件, 防止复杂背景中与目标特征相似的物体干扰, 并在匹配过程中引入决策判定, 只保留在该区间内的最佳匹配块, 即使发生相似物体的遮挡, 算法依然能够较准确地匹配目标.

通过对算法准确性分析可以看出, 当场景变化较大时(包括前/背景), AMFC算法利用EM模型预测下一帧目标的前景信息, 即使目标与背景像素相近且较为复杂时, 算法估计目标在前景区域中的位置, 并通过最优化模型匹配方法寻找在前景区域中的最佳块匹配, 此外, AMFC算法引入决策判定, 只保留在该区间内的最佳匹配块, 避免前景区域中相似物体的干扰, 从而确定目标的最优位置.在模型更新中对目标是否发生严重遮挡进行判断, 当发生严重遮挡时, 在特征集中加入适当补偿, 使更新的外观模型对目标的描述更加准确.

4.4 跟踪效率分析

为了说明算法的实时性, 测试11种算法在处理12组图像帧序列时单位时间内算法跟踪的帧数, 即不同算法的平均运行速度, 结果见表 4.

表 4 不同跟踪算法的平均运行速度 Table 4 Average running speeds of different tracking algorithms

通过本文算法与近几年目标跟踪算法的平均运行速度相比不难看出, 虽然TLD、OAB、CT算法的实时性较高, 但其跟踪成功率较低, 而AMFC算法的平均速度基本都在3帧左右, 跟踪重叠率较高.相比较于同类算法, 在平均运行速度相当的前提下, 算法跟踪的平均中心误差较小、跟踪重叠率较高.

5 结论

本文提出了一种前景约束下的抗干扰匹配目标跟踪方法, 利用图像的前景判别, 突出了目标的重要区域, 为特定目标的识别跟踪提供了新的思路.通过EM模型对前景信息的估计解决了模板匹配中的误识问题.在匹配过程中, 引入决策判定, 排除与目标相似物体的干扰, 提高算法匹配的抗干扰性.在模型更新中, 算法对目标是否发生严重遮挡进行判断, 当发生严重遮挡时, 在特征集中加入适当补偿, 使更新的外观模型对目标的描述更加准确, 提高了跟踪的可靠性.

通过对标准库中的12组视频图像序列进行实验对比分析, 结果表明, AMFC算法在目标形变、目标旋转移动、光照变化、部分遮挡、复杂环境等干扰因素的影响下均可以得到较高的跟踪准确性.

AMFC算法虽然引入了图像特征的前景信息, 但对于目标不规则运动和目标发生全局遮挡时跟踪的准确率不高.在未来的工作中, 将针对目标的特征做进一步分析研究.

附录A 对局部模型匹配过程的推导
$ \begin{align*} &p_\Omega \left(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}, {\widetilde I_{pixel}}, {\widetilde T_{pixel}}\right) = \\ &\qquad {{p}}\left(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}, {\widetilde I_{pixel}}, {\widetilde T_{pixel}}\right){1_\Omega } \end{align*} $

其中, ${1_\Omega } = \delta {({\widetilde T_{pixel}} - {\widetilde I_{pixel}})^{h_{pixel}^I}} $是狄克拉函数.由于像素的位置、颜色特征都是独立的, 上式可表示为

$ \begin{align*} &{{{p}}_\Omega }\left(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}, {\widetilde I_{pixel}}, {\widetilde T_{pixel}}\right)= \\ &\qquad {{p}}\left(h_{pixel}^I\right){{p}}\left({I_{pixel}}|h_{pixel}^I\right) \times \\ &\qquad {{p}}\left({T_{pixel}}\right)p\left({\widetilde I_{pixel}}|{I_{pixel}}\right)p\left({\widetilde T_{pixel}}|{T_{pixel}}\right){1_\Omega } \end{align*} $

为了进一步简化, 对${\widetilde I_{pixel}}$, ${\widetilde T_{pixel}}$进行积分, 相应的推导过程如下:

$ \begin{align*} &{{{p}}_\Omega }\left(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}\right)= \\ &\ \iint {{{ {p}}_\Omega }\left(h_{pixel}^I, {I_{pixel}}, {T_{pixel}}, \widetilde {I}_{pixel}, \widetilde {T}_{pixel}\right)} {{\rm d}\widetilde {I}_{pixel}{\rm d}\widetilde {T}_{pixel}}= \\ &\ \ {{p}}\left(h_{pixel}^I\right)p\left({I_{pixel}}|h_{pixel}^I\right)p\left({T_{pixel}}\right) \times \\ &\ \iint G\left(\widetilde {T}_{pixel}|{T_{pixel}}, \sigma \right)G\left(\widetilde {I}_{pixel}|{I_{pixel}}, \sigma \right) \times \\ &\ \ \delta {{\left(\widetilde {T}_{pixel} - \widetilde {I}_{pixel}\right)}^{h_{pixel}^I}} {\rm d}\widetilde {I}_{pixel}{\rm d}\widetilde {T}_{pixel} \end{align*} $

如果$h_{pixel}^I = 0$, 则上述公式的二重积分可分解为2个独立的高斯CDF积分.如果$h_{pixel}^I = 1$, 二重积分可以合写为一个高斯分布, 即$G({T_{pixel}} - {I_{pixel}}|0, \sqrt 2 \sigma )$.则

$ \begin{align} & \iint{G\left( {{{\tilde{T}}}_{pixel}}|{{T}_{pixel}},\sigma \right)G\left( {{{\tilde{I}}}_{pixel}}|{{I}_{pixel}},\sigma \right)}\times \\ & \delta {{\left( {{{\tilde{T}}}_{pixel}}-{{{\tilde{I}}}_{pixel}} \right)}^{h_{pixel}^{I}}}\text{d}{{{\tilde{I}}}_{pixel}}\text{d}{{{\tilde{T}}}_{pixel}}= \\ & p\left( h_{pixel}^{I} \right)p\left( {{I}_{pixel}}|h_{pixel}^{I} \right)p\left( {{T}_{pixel}} \right)\times \\ & G{{\left( {{T}_{pixel}}-{{I}_{pixel}}|{{I}_{pixel}},\sqrt{2}\sigma \right)}^{h_{pixel}^{I}}} \\ \end{align} $
附录B 寻找LK最优化匹配问题等价于搜索最大似然像素集问题

证明.

寻找与目标模型的最大似然匹配像素集$I(W(PIXEL$, ${w^{t - 1}}$ $+$ $\Delta w))$.即

$ \begin{align*} \mathop {\max }\limits_{\Delta w} \log {{p}}\left(I(W(PIXEL, {w^{t - 1}} + \Delta w))|T\right) \end{align*} $

将上式代入到牛顿高斯模型中, 表示为

$ \begin{align*}&\mathop {\max }\limits_{\Delta w} \sum\limits_{pixel \in PIXEL} \log G\left(I(W(pixel, w^{t - 1} + \Delta w)) - T|0, \sigma \right) \end{align*} $

对上述结果做进一步推导, 利用高斯表达式$G(x|\mu , \sigma )$ $=$ ${1}/{{\sqrt {2\pi } \sigma }}\exp ( - {1}/{{2{\sigma ^2}}}{(x - \mu )^2})$展开.

$ \begin{array}{l} \mathop {\max }\limits_{\Delta w} \sum\limits_{pixel \in PIXEL} \log G\left( {I(W(pixel,{w^{t - 1}} + \Delta w)) - T|0,\sigma } \right) = \\ \mathop {\max }\limits_{\Delta w} \sum\limits_{pixel \in PIXEL} {\log } (\frac{1}{{\sqrt {2\pi } \sigma }}\exp ( - \frac{1}{{2{\sigma ^2}}} \times \\ {(I(W(pixel,{w^{t - 1}} + \Delta w)) - T)^2})) = \\ \mathop {\max }\limits_{\Delta w} \sum\limits_{pixel \in PIXEL} {\log (\frac{1}{{\sqrt {2\pi } \sigma }})} + \\ \mathop {\max }\limits_{\Delta w} \sum\limits_{pixel \in PIXEL} - \frac{1}{{2{\sigma ^2}}}{(I(W(pixel,{w^{t - 1}} + \Delta w)) - T)^2} \end{array} $

其中, $\mathop {\max }_{\Delta w} \sum_{pixel \in PIXEL} {\log (\frac{1}{{\sqrt {2\pi } \sigma }})} $为与$w$无关的常数, 由此可以看出, 寻找LK最优化匹配问题等同于搜索最大似然像素集问题.

附录C 光流迭代寻优过程

$\mathop {\max }_{\Delta w} \log {{p}}(I(W(pixel, {w^{t - 1}} + \Delta w))|T)$进行一阶泰勒展开, 可得

$ \begin{align*} &L(\Delta w) =\notag\\ &\ \sum\limits_{pixel\in PIXEL} \bigg\{ {Q_0}(pixel )\left[{I_0}(pixel, w) + \nabla {I_0}\frac{{{\rm d}W( w)}}{{\rm d}w}\Delta w\right]\!+ \\ &\ {Q_1}(pixel)\left[{I_1}{\text{(}}pixel {\text{, }}w) + \nabla {I_1}\frac{{{\rm d}W(w)}}{{\rm d}w}\Delta w\right] - \\ &\ Q(pixel)\left[T(pixel) - I(W(pixel, w)) - \nabla I\frac{{{\rm d}W( w)}}{{{\rm d}w}}\Delta w\right]^2\bigg\} \end{align*} $

其中,

$ \begin{align*} &{I_0} = \log p(h_{pixel}^I = 0) \\ &{I_1} = \log p(h_{pixel}^I = 1) \\ &{Q_0}(pixel) = {p_{old}}(h_{pixel}^I(W(pixel , w) = 0)) \\ &{Q_1}(pixel) = {p_{old}}(h_{pixel}^I(W(pixel , w) = 1)) \\ &Q(pixel) = \frac{1}{{2{\sigma ^2}}}{p_{old}}( h_{pixel}^I(W(pixel, w) = 1, \\&\qquad\qquad\quad I(W(pixel, w) - T(pixel)) = 0))\end{align*} $

上述公式中, ${I_0}$表示背景图像区域, ${I_1}$表示前景图像区域, ${Q_0}{\text{(}}pixel{\text{)}}$为当前帧背景图像${I_0}$的似然估计的权重函数, ${Q_1}{\text{(}}pixel{\text{)}}$为当前帧前景图像${I_1}$的似然估计的权重函数.第1行等式的含义为根据前一帧图像中匹配到的背景像素的权重(由权重函数${Q_0}{\text{(}}pixel{\text{)}}$给出)获取背景图像${I_0}$的似然估计.第2行等式的含义根据前一帧图像中匹配到的前景像素的权重(由权重函数${Q_1}{\text{(}}pixel{\text{)}}$给出)获取前景图像${I_1}$的似然估计.第3行等式为对输入图像$I$通过传统LK算法目标函数的相似性度量, 利用$Q{\text{(}}pixel{\text{)}}$加权获得模板与图像之间匹配关系.

$L{\text{(}}\Delta w{\text{)}}$求导, 设其导数为0, 即可得到

$ \begin{array}{l} \Delta w = \;[\sum\limits_{pixel \in PIXEL} {Q{\rm{(}}} pixel)[T{\rm{(}}pixel{\rm{)}} - \\ I{\rm{(}}W{\rm{(}}pixel{\rm{, }}w))]\nabla I\frac{{{\rm{d}}W{\rm{(}}w{\rm{)}}}}{{{\rm{d}}w}} - \\ \frac{1}{2}(\sum\limits_{pixel \in PIXEL} {{Q_0}{\rm{(}}pixel{\rm{)}}} \nabla {I_0}\frac{{{\rm{d}}W{\rm{(}}w{\rm{)}}}}{{{\rm{d}}w}}{\rm{ + }}\\ \sum\limits_{pixel \in PIXEL} {{Q_1}{\rm{(}}pixel{\rm{)}}} \nabla {I_1}\frac{{{\rm{d}}W{\rm{(}}w{\rm{)}}}}{{{\rm{d}}w}})] \times \\ {\rm{ }}[\sum\limits_{pixel \in PIXEL} {Q{\rm{(}}pixel){{(\nabla {I_0}\frac{{{\rm{d}}W{\rm{(}}w{\rm{)}}}}{{{\rm{d}}w}})}^{\rm{T}}}} \times \\ (\nabla {I_0}\frac{{{\rm{d}}W{\rm{(}}w{\rm{)}}}}{{{\rm{d}}w}}){]^{ - 1}} \end{array} $
参考文献
1
Yin Hong-Peng, Chen Bo, Chai Yi, Liu Zhao-Dong. Vision-based object detection and tracking:a review. Acta Automatica Sinica, 2016, 42(10): 1466-1489.
( 尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自动化学报, 2016, 42(10): 1466-1489.)
2
Huang Dan-Dan, Sun Yi. Tracking via multitask discriminative local joint sparse appearance model. Acta Automatica Sinica, 2016, 42(3): 402-415.
( 黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪. 自动化学报, 2016, 42(3): 402-415.)
3
Xu Jian-Qiang, Lu Yao. Robust visual tracking via weighted spatio-temporal context learning. Acta Automatica Sinica, 2015, 41(11): 1901-1912.
( 徐建强, 陆耀. 一种基于加权时空上下文的鲁棒视觉跟踪算法. 自动化学报, 2015, 41(11): 1901-1912.)
4
Yuan X H, Kong L B, Feng D C, Wei Z C. Automatic feature point detection and tracking of human actions in time-of-flight videos. IEEE/CAA Journal of Automatica Sinica, 2017, 4(4): 677-685. DOI:10.1109/JAS.2017.7510625
5
Zoidi O, Tefas A, Pitas I. Visual object tracking based on local steering kernels and color histograms. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(5): 870-882. DOI:10.1109/TCSVT.2012.2226527
6
Duffner S, Garcia C. Using discriminative motion context for online visual object tracking. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(12): 2215-2225. DOI:10.1109/TCSVT.2015.2504739
7
Wang X C, Tuüretken E, Fleuret F, Fua P. Tracking interacting objects using intertwined flows. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(11): 2312-2326. DOI:10.1109/TPAMI.2015.2513406
8
Khan Z H, Gu I Y H. Nonlinear dynamic model for visual object tracking on Grassmann manifolds with partial occlusion handling. IEEE Transactions on Cybernetics, 2013, 43(6): 2005-2019. DOI:10.1109/TSMCB.2013.2237900
9
Wang Mei-Hua, Liang Yun, Liu Fu-Ming, Luo Xiao-Nan. Object tracking based on component-level appearance model. Journal of Software, 2015, 26(10): 2733-2747.
( 王美华, 梁云, 刘福明, 罗笑南. 部件级表观模型的目标跟踪方法. 软件学报, 2015, 26(10): 2733-2747.)
10
Zhang Huan-Long, Hu Shi-Qiang, Yang Guo-Sheng. Video object tracking based on appearance models learning. Journal of Computer Research and Development, 2015, 52(1): 177-190.
( 张焕龙, 胡士强, 杨国胜. 基于外观模型学习的视频目标跟踪方法综述. 计算机研究与发展, 2015, 52(1): 177-190. DOI:10.7544/issn1000-1239.2015.20130995)
11
Shi Hua, Li Cui-Hua, Wei Feng-Mei, Wang Hua-Wei. Moving object tracking based on location and confidence of pixels. Journal of Computer Research and Development, 2005, 42(10): 1726-1732.
( 施华, 李翠华, 韦凤梅, 王华伟. 基于像素可信度和空间位置的运动目标跟踪基于外观模型学习的视频目标跟踪方法综述. 计算机研究与发展, 2005, 42(10): 1726-1732.)
12
Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning. In: Proceedings of the 22nd IEEE International Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE, 2009. 983-990
13
Oron S, Bar-Hillel A, Levi D, Avidan S. Locally orderless tracking. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 1940-1947
14
Xu Ru-Yi, Chen Liang-Ying. Lucas-Kanade tracking based on sparse representation. Journal of Image and Graphics, 2013, 18(3): 283-289.
( 徐如意, 陈靓影. 稀疏表示的Lucas-Kanade目标跟踪. 中国图象图形学报, 2013, 18(3): 283-289. DOI:10.11834/jig.20130306)
15
Wang S, Lu H C, Yang F, Yang M H. Superpixel tracking. In: Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011. 1323-1330
16
Levinshtein A, Stere A, Kutulakos K N, Fleet D J, Dickinson S J, Siddiqi K, et al. Turbopixels:fast superpixels using geometric flows. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2290-2297. DOI:10.1109/TPAMI.2009.96
17
Baker Simon B, Matthews Iain M. Lucas-Kanade 20 years on:a unifying framework. International Journal of Computer Vision, 2004, 56(3): 221-255. DOI:10.1023/B:VISI.0000011205.11775.fd
18
Liu Wan-Jun, Liu Da-Qian, Fei Bo-Wen, Qu Hai-Cheng. Geometric active contour tracking based on locally model matching. Journal of Image and Graphics, 2015, 20(5): 652-663.
( 刘万军, 刘大千, 费博雯, 曲海成. 基于局部模型匹配的几何活动轮廓跟踪. 中国图象图形学报, 2015, 20(5): 652-663. DOI:10.11834/jig.20150508)
19
Comaniciu D, Meer P. Mean shift:a robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(45): 603-619.
20
Wu Y, Lim J, Yang M H. Online object tracking: a benchmark. In: Proceedings of the 2013 IEEE International Conference on Computer Vision and Pattern Recognition. Oregon, Portland, USA: IEEE, 2013. 2411-2418
21
Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 1822-1829
22
Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram. In: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006. 798-805
23
Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 1838-1845
24
Kwon J, Lee K M. Visual tracking decomposition. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010. 1269-1276
25
Bao C L, Wu Y, Ling H B, Ji H. Real time robust L1 tracker using accelerated proximal gradient approach. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 1830-1837
26
Zhang K H, Zhang L, Yang M H. Real-time compressive tracking. In: Proceedings of the 2012 European Conference on Computer Vision. Florence, Italy: Springer, 2012. 864-877
27
Grabner H, Grabner M, Bischof H. Real-time tracking via on-line boosting. In: Proceedings of the 2006 British Machine Vision Conference. Edinburgh, UK: BMVA Press, 2006. 47-56
28
Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239
29
Gao Jun-Yu, Yang Xiao-Shan, Zhang Tian-Zhu, Xu Chang-Sheng. Robust visual tracking method via deep learning. Chinese Journal of Computers, 2016, 39(7): 1419-1434.
( 高君宇, 杨小汕, 张天柱, 徐常胜. 基于深度学习的鲁棒性视觉跟踪方法. 计算机学报, 2016, 39(7): 1419-1434. DOI:10.11897/SP.J.1016.2016.01419)
30
Li Qing-Wu, Zhu Guo-Qing, Zhou Yan, Huo Guan-Ying. Object compressive tracking via online feature selection. Acta Automatica Sinica, 2015, 41(11): 1961-1970.
( 李庆武, 朱国庆, 周妍, 霍冠英. 基于特征在线选择的目标压缩跟踪算法. 自动化学报, 2015, 41(11): 1961-1970.)