2. 北京大学 机器感知与智能教育部重点实验室, 北京 100871
2. Key Laboratory of Machine Perception (Ministry of Education) Department of Machine Intelligence, Peking University, Beijing 100871, China
人脸识别是作为一项重要的生物识别技术,在公安刑侦、企业管理、自助服务及互联网金融方面都取得了广泛的应用。实际的人脸识别系统多遇到的是小样本的人脸识别问题,即在识别中可以采集到的每个人的人脸样本相对较少,而且采集环境通常是在不可控的自然环境下进行的,人脸样本常常含有诸如光照、姿态、遮挡、表情、噪声等类内变化。如何在含有较大干扰的小样本人脸识别问题中取得鲁棒的识别结果,便成了当前许多人脸识别方面的研究工作所关心的问题。受稀疏编码
[1]和子空间方法[2, 3]的启发,John Wright等[4]提出了基于稀疏表示的分类方法,在含遮挡、噪声、光照的复杂环境下的人脸识别问题中取得了较好的效果。在John Wright工作的基础上,一系列基于稀疏表示的分类方法的研究取得了一定的进展,具有代表性的包括关于稀疏表示中字典学习的研究工作[5, 6, 7],稀疏表示的快速优化策略[8, 9, 10],和关于添加对表示系数的不同约束的工作[11, 12, 13]。其中,Lei Zhang[14]指出了在基于稀疏表示的分类方法中协同性机制的地位,并提出了使用更松弛的二范数来约束训练字典表示系数的协同表示的分类方法。为了解决小样本情况下单类训练集字典对类内变化表达不充分的问题,文献[15, 16, 17, 18]创造性地将补偿字典引入了基于稀疏表示的人脸识别的方法中,在小样本的人脸识别问题中取得了一定的突破,但依然不能彻底分离训练集字典中类内变化产生的干扰。
传统的基于稀疏表示的方法本质上依然基于样本的灰度特征,利用稀疏线性表达来实现对类内变化分量的分离。但对于实际问题,类内变化相对比较复杂,如姿态、表情、复杂的光照,简单依靠线性表达很难将其分离出来。特别对于训练集字典极欠完备的小样本问题,凭借有限的训练样本更难实现这一目标。为了解决这一问题,本文将人脸的灰度特征通过深度神经网络非线性映射到一个特征线性子空间内,这一映射保留了样本分类相关的主要信息,去除了类内变化信息的干扰,使得映射后的特征对类内变化具有不变性且更有可区分性。然后,将该特征利用基于稀疏表示的分类方法进行表达和识别。实验证明,本文方法在具有较大类内变化的小样本问题上效果尤其突出,且对于姿态、表情这类非线性叠加的类内变化具有更好的鲁棒性。
本文提出了基于深度学习特征的稀疏表示的人脸识别方法,将深度学习特征与稀疏表示相互结合,充分发挥了深度学习在特征学习方面的优点和稀疏表示在小样本识别上的优点。通过实验,在一定程度上说明了深度学习所得的特征具有线性子空间特性,并对深度学习所得特征进行了较为系统的分析。
1 相关工作
1.1 基于稀疏表示的人脸识别方法
基于稀疏表示的分类方法(sparse representation based classification,SRC)[4] 假设人脸图像位于线性子空间中,测试样本可以为所有类的训练样本(字典)协同线性表达,而测试样本所属类别的字典可以表示得更加稀疏(用较少的字典可以达到更好的重构)。在对表示系数增加稀疏性的约束后,求解所得的稀疏表示系数中非零项应主要为测试样本所属类别字典的对应项,因此便可以根据哪类字典可以取得对测试样本更小的重构误差来进行分类,这便是SRC的工作原理。各步骤公式如下:
SRC表示过程:
$\hat \alpha = \arg \mathop {\min }\limits_\alpha \left\| {y - X\alpha } \right\|_2^2 + \lambda {\left\| \alpha \right\|_1}$ | (1) |
SRC分类过程:
${\rm{identity}} = \arg \mathop {\min }\limits_i \left\| {y - {X_i}{{\hat \alpha }_i}} \right\|_2^2$ | (2) |
基于稀疏表示的分类方法能够有效利用人脸图像的子空间特性,不需要大量样本进行分类器的学习,对噪声具有较好的鲁棒性。
基于稀疏表示的识别方法假设每类训练样本(字典)都必须是完备的,每类训练样本(字典)都有足够的表达能力。这一假设在具有较大干扰(如光照、姿态、遮挡等)的小样本问题中一般是不成立的。在小样本且具有较大干扰的人脸识别问题中,测试图片常常会被错分为具有相似类内变化的字典的类中,而不是具有相同外貌变化的类中。为了消除小样本情况下类内变化的干扰,文献[15, 16, 17, 18]创造性地将补偿字典引入了基于稀疏表示的人脸识别的方法中,在小样本的人脸识别问题中取得了一定的突破,但依然不能彻底分离训练集字典中类内变化。
1.2 较大类内变化干扰下的小样本人脸识别问题为了更好地分析子空间方法中类内变化带来的影响,Tang等[19]提出了统一子空间的理论概念。统一子空间理论认为人脸图像由原型成分、类内变化成分和噪声成分线性组合而成。如式(3)和图 1所示。
$y = \mu + v + \varepsilon $ | (3) |
式中:μ为与人脸相貌相关的原型成分,ν为与人脸图像的类内变化成分(如光照、姿态、遮挡等),ε为噪声成分。在人脸识别中需要尽可能地将与分类无关的成分μ和ε与分类相关的成分μ分离开来。但通常,μ、ν和ε 3个成分之间具有较强的相关性,很难通过线性表示(即便是稀疏线性表示)将其有效地分离开来,或者将v和ε有效地去除掉。以人脸的姿态变化为例,同类人脸在不同姿态下的类内差与不同人脸在统一姿态下的类内差十分接近(均在外貌轮廓处有较大的响应),很难通过有限的样本和稀疏线性表示去除姿态对人脸图像的影响。且这一问题,在小样本的人脸图像识别的问题中,变得更加棘手。
本文将人脸样本从灰度空间投影到特征空间,然后在特征空间使用基于稀疏表示的分类方法进行识别。对于投影后的特征,需要满足如下2个条件:1)投影后的特征需要满足线性子空间特性,这样才能符合基于稀疏表示的分类方法的基本前提;
2)投影后的特征对类内变化不敏感,或者消除了类内变化。为了有效解决小样本问题,我们同时期望特征的学习可以通过外部数据来完成,然后迁移到小样本的数据集上来。换句话说,也就要求所学得的特征具有一定的可迁移性。
传统的特征如HOG、SIFT、LBP等不能很好地保证人脸图像中的类内变化可以被有效地去除,特别对于诸如姿态、遮挡、表情等这类比较复杂的类内变化,同时变化后的特征一般不具有子空间特性,很难适用于基于稀疏表示的分类方法,使之发挥更大的效能。
1.3 深度卷积神经网络
深度卷积神经网络(deep convolutional neural network,DCNN)是一种有监督的深度学习模型,已成为当前语音分析和图像识别领域的研究热点。 Lecun等早在1998年就提出了经典的LeNet网络[20],Hinton等使用的大规模深度CNN[21]在Imagenet这样1 000类的分类问题上取得了非常好的结果。文献[22, 23, 24, 25]利用CNN网络在人脸识别领域取得了较大的突破,成为目前工业界和学术界的主流算法。卷积网络的核心思想是局部感受野、权值共享(或者权值复制)以及时间或空间亚采样。CNN通常使用最后一层全连接隐层的值作为对输入样本所提取的特征,通过外部数据进行的有监督学习,CNN可以保证所得的特征具有较好的对类内变化的不变性。
为了更有效地解决复杂类内变化条件下的小样本人脸识别问题,本文结合近年来被深入研究和广泛应用到各类视觉问题的深度卷积网络,使用深度学习的方法来提取特征,然后与基于稀疏表示的方法相结合。使用深度学习得到的特征被诸多实验证明具有较好的可分性和迁移性,并对类内变化具有较好的鲁棒性。但其是否具有子空间特性这一问题却很少被人关注。本文利用实验的方式,在一定程度上证明了深度学习所得的人脸特征具有较好的子空间特性,而且具有可迁移性和对类内变化的不变性。
本文结合基于深度学习的特征提取方法和基于稀疏表示的人脸识别方法,提出了兼顾二者所长的基于深度学习特征的稀疏表示的人脸识别方法(sparse representation via deep learning features based classification,SRDLFC) 。SRDLFC对于含较大类内变化的小样本人脸识别问题具有较大的优势。
2.1 SRDLFC整体流程
SRDLFC方法包括网络学习和样本识别两个过程,样本识别过程包括特征提取和稀疏分类两个环节,其中特征提取所用的CNN网络需要通过外部数据进行有监督的学习和训练。整体流程如图 2。
基于深度学习特征的稀疏表示的人脸识别方法(SRDLFC)如下。
1)网络学习过程:
①利用外部数据学习特征提取的CNN网络f(y).
②对于训练集样本X=X1,X2,…,XI,…,XC,经映射Xi′=f(Xi),得到特征空间的训练集字典X′={X1′,X2′,…,Xi′,…,X C′}。
2)样本识别过程:
①对于测试样本y,通过特征提取网络提取深度学习特征y′=f(y)。
②对y′用特征空间的训练集字典X′进行稀疏表示,得表示系数α′:
$\hat \alpha ' = \mathop {\arg \min }\limits_{\alpha '} \left\| {y' - X'\alpha '} \right\| + \lambda {\left\| {\alpha '} \right\|_1}$ |
③通过训练集字典对测试样本的表示残差进行分类:
${\rm{identity}} = \mathop {\arg \min }\limits_i \left\| {y' - {{X'}_i}{{\hat \alpha '}_i}} \right\|_2^2$ |
SRDLFC方法的特征提取过程是通过深度卷积神经网络完成的,本文所用的CNN网络结构如图 3所示。
网络各层具体参数如表 1所示。
网络层数 | 说明 | 参数 |
Input | 输入层 | 200×200大小的人脸灰度图像 |
Cov1 | 卷积层 | 64个9×9卷积核 步据为2个像素 |
MP1 | 最大值 池化层 | 5×5大小的范围 步据为1个像素 |
Cov2 | 卷积层 | 128个2×2卷积核 步据为2个像素 |
Cov3,4,5 | 卷积层 | 128个2×2卷积核 步据为1个像素 |
MP2 | 最大值 池化层 | 2×2大小的范围 步据为1个像素 |
Cov6 | 卷积层 | 256个2×2卷积核 步据为2个像素 |
Cov7,8,9 | 卷积层 | 256个2×2卷积核 步据为1个像素 |
MP3 | 最大值 池化层 | 2×2大小的范围 步据为1个像素 |
Cov10 | 卷积层 | 512个2×2卷积核 步据为2个像素 |
Cov11,12,13 | 卷积层 | 512个2×2卷积核 步据为1个像素 |
SPP | 空间金字塔 池化层 | 输出大小{6,3,2,1} |
FC1 | 全连接 | 512维,用于做特征 |
Softmax | Softmax层 | 7 000 |
该网络训练中使用的Dropout概率为50%,激活函数为Relu。
本文使用CASIA数据集[26]进行训练,数据集为不受控环境下采集到的人脸图像,包含光照、遮挡、姿态。我们选用前7 000类约39万人脸图像作为数据进行有监督学习,监督学习中输出为各类的标签。图像使用DLIB开源库[27]定位68个特征点,然后进行人脸对齐。我们使用FC1层作为人脸特征,使用cosine距离作为人脸特征的相似度度量,在LFW数据库上测试得到了96.75%±0.57%人脸认证准确率,充分证明网络学到的特征不仅拥有极强的判别性,而且具有良好的迁移性。
3 基于深度学习的人脸特征分析在基于深度学习特征的稀疏表示的人脸识别方法SRDLFC中,要求特征满足线性子空间特性,且具有对类内变化的不变性、较好的迁移性和可分性。下面对SRDLFC中所提取的深度学习特征进行分析和讨论。
3.1 深度学习特征对类内变化的不变性与可区分性SRDLFC中特征提取CNN网络的各层卷积核如图 4所示。
从图 4可以看出,CNN底层主要提取一些与边缘、角度、轮廓相关信息,具有一定的通用性。CNN高层逐渐提取出一些图像结构的信息。
以AR数据集的人脸图像为例,将10类人脸样本的深度学习特征进行可视化,如图 5所示(每一列代表一个样本的特征,每张子图对应一类人脸)。同一类的样本,在经过多层卷积和池化后,得到的特征图是相似的,各个子图有明显的横线纹理(说明同类对应项上的特征值比较相似),说明深度学习特征具有对类变化较好的不变性。而不同类的样本的特征图明显差异很大,这在一定程度上说明了CNN所提取的特征具有较好的可分性。
3.2 深度学习特征的子空间特性
SRDLFC将深度学习的特征与基于稀疏表示的人脸识别方法相结合,要求特征空间满足人脸线性子空间的假设。CNN特征提取网络实现了人脸灰度空间到深度学习特征空间的非线性映射,不一定能保证所得特征满足人脸子空间假设。为了验证这一问题,本文进行如下说明实验。
选择AR中图像作为测试样本,对特征空间中任一个人脸样本,将其用同类的特征空间内的人脸样本做稀疏线性表达,记录重构误差所占样本能量的百分比;对特征空间中任一人脸样本,将其用所有类的特征空间内的人脸样本做稀疏线性表达,记录重构误差所占样本能量的百分比。训练集字典大小为每类20项。实验统计结果如表 2所示。
用同类样本的灰度特征进行稀疏线性表达 | 用所有类样本的灰度特征进行稀疏线性表达 | 用同类样本的深度学习特征进行稀疏线性表达 | 用所有类样本的深度学习特征进行稀疏线性表达 | |
重构误差占原样本的能量比 /% | 94.12 | 97.33 | 97.43 | 98.15 |
在SRDLFC的稀疏线性表示的过程中得到的表示系数示例如图 6。
(a)示例样本1 (b)示例样本2 (c)示例样本3 (d)示例样本4 根据表 2和图 6,可以看到在特征空间内的人脸样本可以很好地被本来样本线性表达,满足子空间的条件。且其在被其他类样本协同线性表达过程中,表达是稀疏的,且同类样本表达更加稀疏,符合稀疏表示分类方法的适用条件。实验说明,深度学习特征具有一定的线性子空间特性。多层卷积和池化的非线性操作也有助于将人脸样本投影到一个更好的线性子空间中。在这样的线性特征子空间中,使用基于稀疏表示的分类方法进行分类识别,具有更高的鲁棒性和更好的识别效果。 4 实验结果及分析本文选择AR和CMU PIE人脸数据库进行识别实验,对应不同类内变化环境下的人脸识别情况。
4.1 AR 人脸数据库识别实验AR数据库包含大约100人的彩色图像(每人约50张),含有光照、遮挡、表情的类内变化的干扰。图像使用DLLIB开源库进行人脸对齐。本文随机选择每类1~25张人脸图像作为训练集字典,其余图像做测试集,10次实验取平均值。对比方法为灰度特征+最近邻分类(Pixel+NN)、灰度特征+Bayesian方法(Pixel+Bayesian)、灰度特征+稀疏表示分类方法(Pixel+SRC)、深度学习特征+最近邻分类(DL+NN)、深度学习特征+Bayesian方法(DL +Bayesian)、深度学习特征+稀疏表示分类方法(DL +SRC,SRDLFC)。所得识别率结果如表 3和图 7所示。
各方法识别率 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
Pixel+NN | 7.64 | 11.68 | 14.93 | 17.92 | 20.76 | 23.52 | 26.37 |
Pixel+Bayesian | 15.59 | 23.04 | 28.53 | 33.00 | 36.94 | 40.78 | 44.12 |
Pixel+SRC | 16.34 | 29.39 | 39.84 | 48.01 | 54.40 | 59.58 | 64.03 |
DL+NN | 31.02 | 41.38 | 49.18 | 55.15 | 60.30 | 64.97 | 68.85 |
DL+Bayesian | 34.88 | 48.29 | 56.57 | 65.00 | 70.62 | 74.45 | 77.89 |
DL+SRC | 41.16 | 58.71 | 67.78 | 75.68 | 80.76 | 84.30 | 86.26 |
CMU-PIE数据库包含68人的41368张彩色图像(每人约50张),含有13种姿态、43种光照、4种表情的类内变化的干扰。图像使用DLIB开源库进行人脸对齐。
本文随机选择每类1-25张人脸图像作为训练集字典,其余图像做测试集,10次实验取平均值。对比方法同4.1章节。所得识别率结果如表 4和图 8所示。
每类字典数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
Pixel+NN | 17.63 | 27.09 | 34.18 | 39.12 | 42.85 | 45.97 | 48.64 |
Pixel+Bayesian | 15.33 | 29.93 | 35.85 | 42.43 | 47.22 | 50.70 | 54.01 |
Pixel+SRC | 24.94 | 38.74 | 47.65 | 54.81 | 58.99 | 62.58 | 65.82 |
DL+NN | 55.85 | 71.89 | 79.64 | 82.85 | 85.40 | 86.92 | 88.37 |
DL+Bayesian | 53.23 | 68.96 | 74.13 | 77.91 | 81.29 | 83.68 | 85.77 |
DL+SRC | 59.05 | 77.76 | 83.43 | 85.62 | 88.46 | 90.70 | 91.99 |
通过实验可以看到,基于深度学习特征的各类方法在较大类内变化干扰的环境下均能有较大的提升,特别是本文提出的基于深度学习特征的稀疏表示的人脸识别方法,取得了较各类方法更加优越的效果。SRDLFC较传统的各类方法能够提升 6%~60%,尤其在小样本情况下更为明显,体现了稀疏表示的特征具有较好的子空间特性、可分性、可迁移性及对类内变化的不变性。而基于稀疏表示分类框架的应用,更加有助于提升深度学习特征的分类准确率,在较大类内变化的小样本的人脸识别问题中具有更大的优势。
5 结束语本文针对较大类内变化干扰下的人脸识别问题,提出了基于深度学习特征稀疏表示的人脸识别方法SRDLFC。本文充分分析论证了基于深度学习所提取的人脸特征基本满足线性子空间假设,并具有较好的可分性、可迁移性及对类内变化的不变性。本文将基于深度学习的特征应用到稀疏表示的分类框架中,充分发挥两者优点,实现识别率的提升。本文提出的SRDLFC算法,可以有效地应对光照、姿态、表情、遮挡等类内变化带来的干扰,且在小样本问题中具有较大的优势。未来的研究工作将进一步对深度学习特征进行研究分析,通过改进网络结构和损失函数,使网络所得特征更加满足线性子空间约束,进一步提升SRDLFC的识别效果,并尝试做一些理论上的推导工作。满足线性子空间约束,进一步提升SRDLFC的识别效果,并尝试做一些理论上的推导工作。
[1] | 汪 雨. 土壤和水中有机氯农药的分析方法研究[D].长春: 吉林农业大学, 2006.WANG Yu. Method for analysis of organochlorine pesticides in soil andwater[D]. Changchun: Jilin Agricultural University, 2006. (in Chinese) |
[2] | 李燕群, 张 渝, 钱 蜀, 等. 全二维气相色谱-质谱法定性分析土壤中有机氯农药、 酞酸酯和多氯联苯[J]援 分析试验室, 2013 (2):109-113.LI Yan-qun, ZHANG Yu, QIAN Shu, et al. Comprehensive two-dimen-sional gas chromatography-mass spectrometry qualitative analysis oforganochlorine pesticides, phthalates and polychlorinated biphenyls insoil comprehensive two-dimensional gas chromatography[J]. Analysis ofthe Test Chamber, 2013 (2): 109-113. (in Chinese) |
[3] | 刘 祥, 崔 进, 佟丽丽, 等. 食品印刷包装材料中多氯联苯的气相色谱-串联质谱法测定及其基质效应探讨[J]援 分析试验室, 2014 (1):30-34.LIU Xiang, CUI Jin, TONG Li-li, et al. Determination by gas chromatog-raphy tandem mass spectrometry and discussion of matrix effects ofpolychlorinated biphenyls in food忆s printing and packaging materials[J]. Analysis of the Test Chamber, 2014 (1): 30-34. (in Chinese) |
[4] | 李丽君, 王 娜, 王海娇, 等. 索氏提取-气质联用同时测定土壤中 7种多氯联苯[J]. 分析试验室, 2009 (S2): 4-7.LI Li-jun, WANG Na, WANG Hai-jiao, et al援 Determination of 7 poly-chlorinated biphenyls in soil through the method of soxhlet extractionand GC-MS[J]. Analysis of the Test Chamber, 2009 (S2): 4-7 (in Chi-nese) |
[5] | Jaward F M, Farrar N J, Harner T, et al. Passive air sampling of PCBs,PBDEs, and organochlorine pesticides across Europe[J]. Environ SciTechnol, 2004, 38 (1): 34-41. |
[6] | H ayakawa K, Taka tsuki H, Watanabe I, et al. Polybrominated diphenylethers (PBDEs), polybrominated dibenzo-p-dioxins/dibenzofurans(PBDD/Fs) and monobromo -polychlorinated dibenzo -p -dioxins/dibenzofurans (MoBPXDD/Fs)in the atmosphere and bulk depositionin Kyoto, Japan[J]. Chemosphere, 2004, 57 (5): 343-356. |
[7] | Shen L, Wania F, Lei Y D, et al. Polychlorinated biphenyls and poly-brominated diphenyl ethers in the North American atmosphere[J]. Envi-ronmental Pollution, 2006, 144 (2): 434-444. |
[8] | Cleverly D, Ferrario J, Byrne C, et al. A general indication of the con-temporary background levels of PCDDs, PCDFs and coplanar PCBs inthe ambient air over rural and remote areas of the United States[J]. Env-iron Sci Technol, 2007, 41 (5): 1537-1544. |
[9] | 姚子伟, 赵冬梅, 马新东, 等.海水中痕量有机污染物分析前处理技术研究进展[J].海洋环境科学, 2011 (3): 447-450.YAO Zi-wei, ZHAO Dong-mei, MA Xin-dong, et al.Progress in thepretreatment technique of trace organic pollutants in seawater[J]. TheMarine Environment and Science, 2011 (3): 447-450.(in Chinese) |
[10] | 曹 菱, 王焰新. 环境有机污染物检测的前处理技术的进展[J]. 实验技术与管理, 2009 (3): 228-230.CAO Ling, WANG Yan-xin. Progress in the pretreatment technique forthe detection of organic pollutants in the environment[J]. ExperimentalTechnology and Management, 2009 (3): 228-230. (in Chinese) |
[11] | 董 亮, 王秀琴, 张烃, 等. 环境介质中有机污染物分析前处理方法概述[J]. 现代科学仪器, 2010 (5): 120-125.DONGLiang,WANGXiu-qin, ZHANGTing, et al. Pretreatment methodof analysis of organic pollutants in environmental media[J]. Modern Sci-enjpgic Instruments, 2010 (5): 120-125. (in Chinese) |
[12] | 李清波,骆永明援四通道色谱分析仪[P].2004200542365.2006-08-16.LI Qing-bo, LUO Yong-ming. Four channel chromatographic separa-tion instrument[P]. 2004200542365. 2006-08-16. (in Chinese) |
[13] | Li Q B, Wang X Y, Song J, et al. Seasonal and diurnal variation in con-centrations of gaseous and particulate phase endosulfan[J]. Atmospher-ic Environment, 2012, 61: 620-626. |
[14] | 隋 红, 吴 鹏, 宋 静, 等援 土壤样品中低浓度滴滴涕分析方法的前处理研究[N]. 分析测试学报, 2013 (11): 1369-1373.SUI Hong, WU Peng, SONG Jing, et al.Study on the pretreatmentanalysis method of low concentration of DDT in soil sample[J]. Journalof Instrumental Analysis, 2013 (11): 1369-1373.(in Chinese) |
[15] | Field J A, Sierra-Alvarez R. Microbial transformation and degradationof polychlorinated biphenyls review[J]. Environmental Pollution, 2008,155 (1): 1-12. |