随着现代科学技术的快速发展,计算机和人之间的交互已经成为人类生活中不可或缺的一部分。早期的手工检测是基于可穿戴传感器[1],例如数据手套,虽然基于数据手套的手势识别方法获得了不错的效果,但是存在需要精确校准、价格昂贵以及对手有束缚等缺点。后来研究者们提出基于RGB视频的不同模型手势识别方法,比如条件随机场模型(conditional random fields model,CRFM)[2]、动态时间规整(dynamic time warping,DTW)[3]、动态贝叶斯网络(dynamic bayesian networks,DBN)[4]以及隐马尔可夫模型(hidden markov model,HMM)[5]等识别模型,但是考虑到颜色、光照、遮挡和复杂背景等不同的干扰因素,手势识别效果不是很好。近年来,微软Kinect深度相机的出现得到了这一领域学者们的高度关注,这种深度相机功能强大且价格相对实惠,在人机智能领域中有着更广阔的前景。
在本文中,将基于深度视频序列手势数据集生成深度运动图(depth motion map,DMM)[6],运用梯度方向直方图(histogram of oriented gradient,HOG)[7]和局部二值模式(local binary patterns,LBP)[8]进行特征提取,将提取到的特征送入极限学习机(extreme learning machine,ELM)[9]中进行分类识别,提出了一种效率高的手势动态识别算法。首先,提出一种新的基于关键帧提取的多级时间采样(multilevel templing sampling,MTS)方法,用于生成长、中和短深度视频序列。然后,对于每个深度视频序列,将每一帧被投影到3个正交笛卡尔平面上,从而生成对应的3个投影视图(正面、侧面和顶部)的投影地图,计算连续投影映射之间的绝对差的和形成3个不同视角的深度运动图(DMMs,即DMMs、DMMf及DMMt)[10]。HOG特征描述符能够描述图像中局部形状和外观信息,而LBP能够描述图像的局部纹理特征,通过计算DMMs图像中的HOG特征和LBP特征,生成了6个不同的特征向量,通过特征加权融合的方式依次连接起来,形成最终的特征向量。最后,利用局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)[11]进行编码主成分分析(principal component analysis,PCA)[12]对输入的向量进行降维,用ELM算法对动态手势[13]进行手势识别。
本文研究的主要工作可概述为:
1)利用DMMs、HOG和LBP算法计算了2个特征描述子。DMM用来获取深度视频序列中的的特定外观和形状,然后在生成的3个不同视角的深度运动图中分别使用HOG和LBP来获取图像的轮廓和纹理特征,所获取的特征增强了对手势识别算法的能力。
2)将特征加权融合方法应用于特征串行融合中。通过提取到的HOG特征和LBP特征,进行2∶1权重分配,有利于实现对手势图像信息的融合与深度利用,有效提升最后特征表示的效果。
3)在公开具有挑战性的手势动作数据集MSR-Action3D[14]上采用交叉主题测试。将20个动作划分为3个动作子集(AS1、AS2和AS3),每种动作由10个不同的测试者录制。对于每个动作子集,采用5个测试者(1、3、5、7和9)用于训练,其余用来测试。这种类型的交叉主题测试有利于提高实验的准确性。
1 主要内容 1.1 系统介绍本文手势识别系统框图如图1所示。
Download:
|
|
在手势识别系统中,通过输入深度手势视频序列,将对手势图像进行预处理以及手势分割,对分割出来的手势进行跟踪以追踪手势的去向,运用特征提取算法提取出相应的手势特征,最后利用分类算法对提取的特征进行分类识别。
1.2 多级时间采样手势识别的一个难点在于识别同一手势由于不同的执行速度而产生识别结果的偏差。解决此问题的一个简单的方法是通过选择随机帧进行下采样;然而,可能造成未选择帧中的重要信息的丢失。为了解决这个问题并尽量保留未选择帧的重要信息,因此运用多级时间采样的方法。
首先,计算出每一帧的运动能量,通过累加来定义每一帧与下一帧在所有像素上的差异值:
${E_t} = {\sum\limits_{i = 1}^{{N}} {\left( {{d_t}\left( i \right) - {d_{t + 1}}\left( i \right)} \right)} ^2}$ | (1) |
式中:
然而为了选择相关视觉信息的帧(即识别不同手势,最大限度地利用原始视频中包含的信息),根据运动能量的变化率对输入帧进行采样,如式(2):
$\Delta E = \left| {{E_t} - {E_{t + 1}}} \right|$ | (2) |
为了采集
Download:
|
|
在DMMs构建过程中,深度视频序列投影到正交笛卡尔坐标系中,根据Kinect坐标系的3个不同视角的原理,可以生成3个不同的视角:正视、侧视和顶视。手势深度图的正视投影图、侧视投影图和顶视投影图分别记作
${\rm{DMM = }}\sum\limits_{t = 1}^K {\left| {d_t^{{\rm{l,}}v} - d_{t + 1}^{{\rm{l,}}v}} \right|} $ | (3) |
式中:
Download:
|
|
深度运动图由于覆盖重写变得很模糊,应该用传统经典有效的算法来增强手的形状信息以便分类器能更好地进行分类识别。局部二值模式是一种非常有效的旋转不变纹理描述工具,因其计算简单、鉴别能力强等等优点而被广泛应用。为了获取图像的纹理特征,利用LBP进行编码图像,在LBP编码图像过程中原始像素用编码局部纹理信息的十进制数标注。原始的LBP算子工作在3×3的像素块,以中间像素
Download:
|
|
同理,当小于中心像素点时,则这个邻域像素点的值就被置为0,中心像素
${\rm{LB}}{{\rm{P}}_{N,R}}\left( {x,y} \right) = \sum\limits_{i = 0}^{N - 1} {{\rm{th}}\left( {f\left( {{x_i},{y_i}} \right) - f\left( {x,y} \right)} \right)} \cdot {2^i}$ | (4) |
式中:当
在一幅图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。方向梯度直方图常用来描述图像特征的特征描述子,因其在局部单元格上进行操作,对局部光照、几何形变具有良好的不变性,跟其他特征提取算法相比具有一定的优势。
HOG特征提取的主要思想是将整个图像分成多个连通区域(即细胞元),然后通过计算每个连通区域中各像素点所对应的梯度方向直方图,最后依次顺序连接所获得的直方图构成特征描述器。
方向梯度直方图算法的具体实现过程如下:
1)将要分析的图像进行灰度归一化。
2)计算图像中每个像素的梯度。
对于每一幅图像而言,都可以用水平方向和垂直方向的梯度进行表示,这2个方向的导数可以表示为
${{\mathit{\boldsymbol{z}}}} = {\left[ {{d_x}{d_y}} \right]^{\rm{T}}}$ | (5) |
继而每个细胞单元中像素的梯度信息转化为极坐标信息,其中幅度
$A = \sqrt {d_x^2 + d_y^2} $ |
$\theta = {\rm{ta}}{{\rm{n}}^{ - 1}}\left( {\frac{{{d_x}}}{{{d_y}}}} \right)$ |
3)将图像划分为细胞元(cells)。
首先将图像划分为较小的单元格,假如本文图片大小为256×256的统一尺寸,再将图像分割成大小16×16的单元格,然后2×2个单元格构成一个块(block),最后所有的block组成图像。
4)将块(block)内所有的cell特征串联起来便得到该块(block)的HOG特征描述符。
5)同理,将图像中所有块的HOG特征描述符串联起来就得到该整幅图像的HOG特征描述符,这个就是最终用来进行分类识别所用的特征向量了,图像分割示意如图5所示。
Download:
|
|
在提取特征后,需要降维来保留一些重要的特征,去除一些冗余信息,从而实现提高数据处理速度的目的。具有使得数据集更易使用、降低算法的计算开销和去除冗余信息等优点。本文PCA值设置为130,最终训练集降维到130×283,测试集降维到130×273。
主成分分析算法的具体实现如下:
1)将原始数据按行组成
2)求出样本X的协方差矩阵C和样本均值
3)求出协方差矩阵D的特征值及对应的特征向量V。
4)将特征向量根据对应特征值大小从按行排列成矩阵,取前
5)
极限学习机最大的优势在于:1)输入层和隐含层的连接权值、隐含层的阈值可以随机设定,一旦设定完后则不用再调整。2)隐含层和输出层之间的连接权值
ELM可以通过随机初始化输入权重和偏置得到相应的输出权重。对于一个单隐层神经网络,假如有
$ {{{\mathit{\boldsymbol{X}}}}}_{i}={[x}_{i1},{x}_{i2},{\cdots},{{x}_{in}]}^{\rm{T}}\in {{R}}^{n},{{{\mathit{\boldsymbol{k}}}}}_{i}=[{x}_{j1},{x}_{j2},{\cdots},{{x}_{jm}]}^{\rm{T}}\in {{R}}^{m}$ |
则对于一个有
$ {\displaystyle \sum _{i-1}^{L}{\beta }_{i}}g\left({{{\mathit{\boldsymbol{W}}}}}_{i}\cdot {{{\mathit{\boldsymbol{X}}}}}_{j}+{b}_{i}\right)={o}_{j},j=1,2, {\cdots},N$ | (8) |
式中:
在本节中,将给出手势识别系统实验结果来证明系统在公共数据集MSR-Action3D的动态深度序列数据集中的性能。所有实验均在CPU intel i7和16 GB内存的计算机上运行。
2.1 数据集和设置MSR-Action3D数据集包含20个动作,每个动作由10个不同的被试者面对RGB-D摄像机执行2次或3次。20项动作包括高臂波、横臂波、锤子、手接、前拳、高抛、抽签X、抽签、画圈、手拍、两手波、侧拳、弯、前踢、侧踢、慢跑、网球挥杆、网球发球、高尔夫球挥杆和捡抛。每次由10名受试者表演2次或者3次,帧速率为15 f/s,分辨率为320×240。删除此数据集的背景,这个数据集最重要的挑战是相互作用的相似之处,它只包含深度视频序列。检抛动作如图6。
Download:
|
|
交叉主题测试的具体实现为:将20个动作划分为3个动作子集(AS1、AS2和AS3),如表1~3所示。对于每个动作子集,5个被试者(1、3、5、7和9)用于训练,其余用于测试。
在所有的实验中,对每一个深度视频序列,删除第一帧和最后一帧。因为在动态手势视频序列中的开头或结尾,实验者大部分是处于静止站立的位置,运动的幅度特别小,这对于实验者的运动特性来说是完全没有必要的。其次,因为在DMM的计算过程中,开头和结尾运动特性小导致会存在大量的识别误差。
为了找到LBP计算中的参数
表4给出了手势识别中每个算法步骤所花费的时间百分比。多级时间采样(multilevel temporal sampling,MTS)的提取包括2个过程:计算序列中每个帧的运动能量,然后进行排序,选择运动能量最高的帧。第1部分是
本文实验首先针对20种手势动作组成的MSRAction 3D深度序列数据集进行研究手势识别系统的性能。该数据集的每类手势动作由10人进行2次或3次,帧速率为15 f/s,分辨率为320×240,删除了此数据集的背景,这个数据集最重要的挑战是相互作用的相似之处。实验1对手势深度序列进行多级时间采样,然后分别对长、中和短深度序列映射到笛卡尔坐标系进行正视、侧视和顶视深度运动图转换,此时有6种不同的深度运动图,将提取每种深度运动图的HOG特征和LBP特征,对提取出的每种特征向量进行VLAD编码和PCA降维,最后将2种特征向量进行串行融合,采用极限学习机进行分类识别。实验一动作识别结果如图7所示。
Download:
|
|
实验2在实验1的基础上为了提取到的特征更好地识别,将提取到的2种特征2HOG:1LBP权重进行串行融合,最终生成了6个不同的特征向量:Front_RHOG为72×540、Side_RHOG为72×972、Top_RHOG为72×405、Front_RLBP为59×480、Front_RLBP为59×864、Front_RLBP为59×360,其中从深度运动图中提取的Front_RLBP纹理信息结果例子如图8所示。
Download:
|
|
实验3是在实验1的基础上将对556个深度序列划分为3个子集,分别对每个子集中的5个实验者(1、3、5、7和9)进行训练,其余用来测试,最后得出3个子集的平均识别准确率。
文献[13]中提出了一种实时骨架估计算法,新的骨骼表示法中利用三维空间中的旋转和平移,显式地模拟了不同身体部位之间的三维几何关系;文献[14]提出了一种基于稀疏编码的时间金字塔匹配方法(time pyramid mathing based on sparse codeing, ScTPM);文献[15]提出了基于深度运动映射(DMMs)、等高线变换(contour transformation, CT)和直方图(HOGs)的基于深度视频序列的人体动作识别框架;文献[16]提出了一种基于深度梯度局部自相关(gradient local autocorrelation characteristic, GLAC)特征和局部约束仿射子空间编码(locally constrained affine subspace coding, LCASC)的三维动作识别算法;文献[17]以基于线性支持向量机的人体检测为例,研究了基于特征集的鲁棒视觉目标识别问题;文献[18]提出从深度序列中组合局部相邻的超曲面法线来将表面法线扩展为多法线,以共同表征局部运动和形状信息方法;文献[19]提出一种基于深度序列关键帧运动能量的多级时间采样(MTS)方法。从实验结果来看,实验2和实验3的识别率均比实验1更高,且实验3识别率相较文献[13]方法和文献[17]方法从骨骼数据提取特征、文献[14]方法和文献[18]方法从手的时空体积提取位置、方向和速度等特征、文献[15]方法从DMMs提取轮廓特征和文献[19]方法利用二维卷积神经网络提取空间特征更好,详见表5。
本文针对深度视频序列采用多级时间采样提取3种不同长度的时间序列,并进一步提取深度运动图,采用HOG算法和LBP算法进行特征提取,将2种算法提取的特征进行加权融合输入到ELM分类器中进行分类识别,并在公开数据集MSR Action3D上进行交叉主题测试实验。实验结果表明,实验2和实验3在实验1进行HOG和LBP提取算法进行融合的方法基础上显示出了比较好的识别率,且实验3基本上比表5中所用的其他方法好,是能实现实时动作识别的一种高效的人体动作识别方法。下一步工作将继续提高动态手势识别的识别精度,增加更多的不同的手势类,并同时降低运行的时间。
[1] | KIM J, LEE M, SHIM H J, et al. Stretchable silicon nanoribbon electronics for skin prosthesis[J]. Nature communications, 2014, 5: 5747. DOI:10.1038/ncomms6747 (0) |
[2] | WANG S B, QUATTONI A, MORENCY L P, et al. Hidden conditional random fields for gesture recognition[C]//Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA, 2006: 1521–1527. (0) |
[3] | BANDERA J P, MARFIL R, BANDERA A, et al. Fast gesture recognition based on a two-level representation[J]. Pattern recognition letters, 2009, 30(13): 1181-1189. DOI:10.1016/j.patrec.2009.05.017 (0) |
[4] | SUK H I, SIN B K, LEE S W. Recognizing hand gestures using dynamic Bayesian network[C]//Proceedings of 2008 8th IEEE International Conference on Automatic Face & Gesture Recognition. Amsterdam, Netherlands, 2008: 1–6. (0) |
[5] | WANG Xiaoyan, XIA Ming, CAI Huiwen, et al. Hidden-Markov-models-based dynamic hand gesture recognition[J]. Mathematical problems in engineering, 2012, 2012: 986134. (0) |
[6] | FAN Yucheng, WU Shufen, LIN Binglian. Three-dimensional depth map motion estimation and compensation for 3D video compression[J]. IEEE transactions on magnetics, 2011, 47(3): 691-695. DOI:10.1109/TMAG.2011.2112641 (0) |
[7] | DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE computer society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886–893. (0) |
[8] | 杜晓辉, 刘霖, 张静, 等. 基于LBP纹理特征的白带显微图像中上皮细胞检测方法[J]. 液晶与显示, 2019, 34(9): 871-878. (0) |
[9] | WANG Xiaoli, ZHANG He, WANG Yalin, et al. ELM-Based AFL–SLFN modeling and multiscale model-modification strategy for online prediction[J]. Processes, 2019, 7(12): 893. DOI:10.3390/pr7120893 (0) |
[10] | LIU Ziqiong, WANG Shengjin, TIAN Qi. Fine-residual VLAD for image retrieval[J]. Neurocomputing, 2016, 173: 1183-1191. DOI:10.1016/j.neucom.2015.08.076 (0) |
[11] | ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley interdisciplinary reviews: computational statistics, 2010, 2(4): 433-459. DOI:10.1002/wics.101 (0) |
[12] | SHEN Xiaohui, HUA Gang, WILLIAMS L, et al. Dynamic hand gesture recognition: an exemplar-based approach from motion divergence fields[J]. Image and vision computing, 2012, 30(3): 227-235. DOI:10.1016/j.imavis.2011.11.003 (0) |
[13] | VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 588–595. (0) |
[14] | LUO Jiajia, WANG Wei, QI Hairong. Spatio-temporal feature extraction and representation for RGB-D human action recognition[J]. Pattern recognition letters, 2014, 50: 139-148. DOI:10.1016/j.patrec.2014.03.024 (0) |
[15] | BULBUL M F, JIANG Yunsheng, MA Jinwen. Human action recognition based on DMMs, HOGs and Contourlet transform[C]//Proceedings of 2015 IEEE International Conference on Multimedia Big Data. Beijing, 2015: 389–394. (0) |
[16] | LIANG Chengwu, CHEN Enqing, QI Lin, et al. 3D action recognition using depth-based feature and locality-constrained affine subspace coding[C]//Proceedings of 2016 IEEE International Symposium on Multimedia. San, USA, 2016: 261–266. (0) |
[17] | TEHRANI A K N, AGHBOLAGHI M A, KASAEI S. Skeleton-based human action recognition-a learning method based on active joints[C]//Proceedings of the 12th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Porto, Portugal, 2017: 303–310. (0) |
[18] | YANG Xiaodong, TIAN Yingli. Super normal vector for human activity recognition with depth cameras[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(5): 1028-1039. DOI:10.1109/TPAMI.2016.2565479 (0) |
[19] | AZAD R, ASADI-AGHBOLAGHI M, KASAEI S, et al. Dynamic 3D hand gesture recognition by learning weighted depth motion maps[J]. IEEE transactions on circuits and systems for video technology, 2019, 29(6): 1729-1740. DOI:10.1109/TCSVT.2018.2855416 (0) |