2. 贵州师范大学 贵州省信息与计算科学重点实验室 贵州 贵阳 550001
2. Key Laboratory of Information and Computing Science of Guizhou Province, Guizhou Normal University, Guiyang 550001, China
身份认证是一个过程, 用于确认用户是否应该被允许对系统进行访问[1].生物特征技术代表了基于“你是谁”的身份认证方法, 或者就如同Schneier给出的恰如其分的评价, “你自己就是你的关键信息”.生物特征识别技术将当前两大热门技术:信息技术和生物技术相结合, 具有巨大的研究价值和市场发展潜力.
生物特征技术应用在信息安全领域的各种不同的身份认证的问题上, 比如信用卡、驾驶执照、护照等证件的身份证明.由于生物特征信息本身容易被采集和盗用, 因此, 生物特征识别的安全性, 不能依赖于生物特征信息本身, 而应该放在系统安全、认证安全等方面.系统安全主要集中在数据采集、数据的存储以及数据的传输3个部分.在认证安全方面, 将认证时采集的生物特征信息与数据库集的生物特征信息进行匹配.
近年来, 随着低成本的Kinect的产生[2], 从Kinect中获取的低分辨率RGB-D数据, 如图 1所示, 已广泛应用到信息安全中的基于人脸识别的身份认证中.RGB-D数据提供了2D人脸识别相应的彩色图像, 也提供了3D人脸识别的深度图像, 使得研究基于RGB-D数据的人脸识别成为了一个活跃的话题[3].
![]() |
图 1 使用Kinect获得的RGB-D图 Figure 1 The RGB-D diagram obtained using Kinect |
传统的人脸识别一般采用2D图像用于特征提取与匹配.然而, 二维图像的人脸识别正在经历着一个具有挑战性的问题, 特别是存在协变量, 例如:姿势, 照明, 表情, 伪装和整形手术[2].对于这些, 2D图像缺乏鲁棒性, 而3D图像在变化的条件下, 可以获得更多的面部特征信息, 保存更多的细节.由于多维空间数据采集设备的出现和改进, 三维图像技术逐步被应用于人脸识别的研究中[4].三维人脸识别技术通过使用人脸的三维信息进行识别与匹配, 一定程度解决了以往二维人脸识别中存在的照明影响、姿态变化、遮挡等问题.然而, 多维空间数据采集设备价格昂贵, 难以广泛应用, 而RGB-D数据采集设备成本低.Li等做了一个基于RGB-D图像的面部识别计算框架[5].由于RGB-D中深度图像具有较高的类间相似性, 所以不能直接用于人脸识别, 但是其较低的类内变化, 有助于增加对抗表情、光照及姿态等变化的影响.而且, 二维RGB图像也为类间的较大差异性弥补了深度图像类间差异性小的弊端.二维RGB图像包含了丰富的纹理属性, 深度图像则包含了几何信息, 两者相互融合有助于特征提取和分类的实现.
1 基于RGB-D的改进的RISE算法 1.1 RISE算法RISE(RGB-D image descriptor based on saliency and entropy)算法也称之为基于显著性和熵的RGB-D图像描述符算法.该算法主要有4个步骤:
1) 图像的预处理. RISE算法首先将RGB图像调整到100×100用于计算特征, 然后将人脸的深度图分成25×25的图像块.由于RGB-D的深度图像具有低分辨率和噪音过大的问题.深度图需要进行预处理, 去掉噪声影响.
2) 应用熵、显著性和直方图计算来自颜色图像和深度纹理图像描述块.首先, 计算RGB图像熵和深度图的图像熵, 通过对RGB图和深度图剪切(对大小为M×N RGB图和深度图进行截图, 以
3) 基于深度图的属性ADM. ADM(attributes based on depth map)算法指的是Depth图的几何属性计算.首先从深度图中提取几何的面部特征进行标记, 为突出不同区域几何特征对表情相似距离的影响以及克服运动幅度大特征对幅度小特征的淹没作用, 该算法采用基于加权的欧氏距离对面部的关键点, 比如鼻尖、眼眶、下巴进行标记, 如公式
4) 将RISE和ADM组合, 并分配权值.
对F和S分别赋予相应的权重ωF和ωS, 且ωF+ωS=1.ϕF和ϕS分别是F和S的相似度, 混合后的相似度可由公式ϕfinal=ωF×ϕF+ωS×ϕS得到.
1.2 改进的RISE算法方向梯度直方图(histogram of oriented gradient, HOG)是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子, 是图像特征提取的重要方法之一.它通过计算和统计图像局部区域的方向梯度直方图来构成特征[9].由于HOG有其自身的缺点, 比如实时性差、难以处理遮挡、对噪声敏感等问题, 因此在对特征设计时需要领域的先验知识.换言之, 在通常情况下, 很难设计合适的能应对多种图像识别问题挑战的数据特征, 因此需要投入大量的工作来设计更好的特征.而卷积神经网络(convolutional neural network)通过对图像进行卷积可以实现很多操作, 比如说图像整体模糊边缘的提取, 更有利于很好地提取特征.本文通过改进RISE算法, 使用卷积神经网络代替方向梯度直方图, 实现特征提取.改进的RISE算法的流程如图 2所示.
![]() |
图 2 改进的RISE算法流程图 Figure 2 Improved flow chart of RISE algorithm |
具体的步骤如下:
步骤1 经过预处理得到RGB图和Depth图;
步骤2 分别计算RGB图和Depth图的局部熵;
步骤3 计算RGB的显著性;
步骤4 将RGB的局部熵图、显著性图和Depth图的局部熵图进行通道融合;
步骤5 将融合后的图像输入到CNN中训练;
步骤6 训练完成, 将得预测标签与标准输入标签进行对比, 计算识别率.
在特征提取方法中, 由Sun等提出的通过深度学习来进行图像高级特征表示(DeepID)[10], 进而进行人脸的分类具有好的泛化能力与不过拟合于小的子训练集的优点, 适合本文所使用的EURECOM[11]数据集.DeepID网络结构图如图 3所示.DeepID采取了目前最常用的手法——增大数据集, 只有大的数据集才能使得卷积神经网络训练的更加充分[10].在改进的RISE算法中, 引入RGB-D具有代表性的EURECOM数据集, 并将图片多尺度、多通道、多区域的切分, 分别进行训练, 再把得到的向量连接起来, 得到最后的向量.
![]() |
图 3 DeepID网络结构图 Figure 3 DeepID network structure diagram |
改进的RISE算法采用CNN, 并且采用CNN最后一层的激活值输出作为特征, 提取不同的人脸熵图和显著性图区域放入CNN中提取特征, 形成了互补、过完全的特征表示.使用ReLU非线性处理[12], 因为ReLU的收敛速度比Sigmoid和Tanh快很多.
2 实验及分析在本文中采用EURECOM数据集做实验.EURECOM数据集有52个人物图像, RGB图像和Depth图像各936张, 包含session1(S1)和session2(S2)时间段, 并且数据集中包含9种不同的面部变化, 带有姿势、光照、视图和遮挡的等协变量, 具有较高的仿真度.由于EURECOM数据集未划分训练集和测试集, 并且有侧脸和遮挡的姿态, 在实验中需要均衡样本.由于实验中预处理之后的图像大小为128×128, 而DeepID网络的结构输入大小为31×39或者31×31, 在搭建卷积神经网络时, 在DeepID输入之前加上两层卷积-池化, 并在DeepID网络的最后一层的卷积层直接连到全连接层.整个卷积神经网络参数设置如表 1所示.表 2的实验结果表明:改进的RISE算法由于使用了卷积神经网络进行提取特征, 在识别时的准确率有明显提高.但是由于EURECOM数据集远远小于IIIT-D数据集, 并且在改进的RISE算法中, 在对图像做归一化处理以及图像邻域大小的不同, 使得本研究的实验识别率低于文献[13]中识别率.
![]() |
表 1 网络参数设置 Table 1 Parameters setting of network layers |
![]() |
表 2 在EURECOM数据集上RISE算法和改进的RISE算法识别率比较 Table 2 Analysis and comparison of RISE algorithm and improved RISE algorithm on EURECOM face database |
基于RGB-D的特征识别技术, 可以应用于复杂场景的物体识别、物体追踪、面部检测和机器人视觉等计算机视觉任务.本研究采用RGB-D解决了二维图像的识别率低以及三维人脸识别设备价格过高的问题, 获得较高的识别率, 并将其应用在生物特征识别信息安全研究领域中, 作为区别与口令的一种更安全的替代方案.因此, RGB-D可以作为生物特征识别的一种重要工具.本文所提出的改进RISE算法在EURECOM数据集上做实验, 具有较好的效果.本文的下一步工作是扩大数据集, 并在算法上做进一步的改进.
[1] |
MARK S.信息安全原理与实践[M].张戈, 译.北京: 清华大学出版社, 2013: 211-212.
( ![]() |
[2] |
BHATT H, BHARADWAJ S, SINGH R, et al. Recognizing surgically altered face images using multiobjectiv evolutioary lgorithm[J]. IEEE transactions an information forensics and security, 2013, 8(1): 89-100. DOI:10.1109/TIFS.2012.2223684 ( ![]() |
[3] |
刘小金, 尹东, 王华凌. 基于紧密二值描述子的RGB人脸描述方法[J]. 光电工程, 2016(12): 162-167. DOI:10.3969/j.issn.1003-501X.2016.12.025 ( ![]() |
[4] |
HOLZ D, HOLZER S, RUSU R, et al.Real-time plane segmentation using RGB-D cameras[C]//Robot Soccer World Cup. Mexico City, 2011: 306-317.
( ![]() |
[5] |
LIU W, MIAN A S, KRISHAN A, et al.Using kinect for face recognition under varying poses, expressions, and disguise[C]//Workshop on the Applications of Computer Vision. Tampa, FL, 2013: 186-192.
( ![]() |
[6] |
林名强.视觉显著性检测研究及应用[D].合肥: 中国科技大学, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10358-1016103076.htm
( ![]() |
[7] |
ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(11): 1254-1259. DOI:10.1109/34.730558 ( ![]() |
[8] |
曹海燕.基于几何特征识别的人脸识别算法[D].曲阜: 曲阜师范大学, 2015.
( ![]() |
[9] |
孙翔侃, 白宝兴. 基于机器学习的NAO机器人检测跟踪[J]. 长春理工大学学报(自然科学版), 2016, 39(2): 116-119. DOI:10.3969/j.issn.1672-9870.2016.02.025 ( ![]() |
[10] |
SUN Y, WANG X, TANG X.Deep learning face representation from predicting 10 000 classes[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, 2014: 1891-1898.
( ![]() |
[11] |
MIN R, KOSE N, DUGELAY J L. KinectFaceDB:a kinect database for face recognition[J]. IEEE transaction on systems man and cybernetics systems, 2014, 44(11): 1534-1548. DOI:10.1109/TSMC.2014.2331215 ( ![]() |
[12] |
WAN S H, AGGARWAL J K. Spontaneous facial expression recognition:a robust metric learning appro-ach[J]. Pattern recognition, 2014, 47(5): 1859-1868. DOI:10.1016/j.patcog.2013.11.025 ( ![]() |
[13] |
GOSWAMI G, VATS M, SINGH R, et al. RGB-D face recognition with texture and attribute features[J]. IEEE transactions on information forensics and security, 2014, 9(10): 1629-1640. DOI:10.1109/TIFS.2014.2343913 ( ![]() |