基于自适应特征的遮挡人脸特征点定位算法

文章信息

杨帆, 熊盛武, 周俊伟, 刘晓赟

YANG Fan, XIONG Shengwu, ZHOU Junwei, LIU Xiaoyun

基于自适应特征的遮挡人脸特征点定位算法

Facial Landmark Localization under Occlusion Based on Adaptive Feature

武汉大学学报(理学版), 2019, 65(3): 243-249

Journal of Wuhan University(Natural Science Edition), 2019, 65(3): 243-249

http://dx.doi.org/10.14188/j.1671-8836.2019.03.003

文章历史

收稿日期：2018-10-09

Abstract

PDF

Figures

Tables

引用本文

杨帆, 熊盛武, 周俊伟, 刘晓赟. 基于自适应特征的遮挡人脸特征点定位算法[J]. 武汉大学学报(理学版),2019, 65(3): 243-249.

YANG Fan, XIONG Shengwu, ZHOU Junwei, LIU Xiaoyun. Facial Landmark Localization under Occlusion Based on Adaptive Feature[J]. Journal of Wuhan University(Natural Science Edition) , 2019, 65(3): 243-249.

基于自适应特征的遮挡人脸特征点定位算法

杨帆¹, 熊盛武^1,2, 周俊伟¹, 刘晓赟³

1. 武汉理工大学计算机科学与技术学院，湖北武汉 430070;
2. 交通物联网湖北省重点实验室，湖北武汉 430070;
3. 武汉理工大学文法学院，湖北武汉 430070

收稿日期：2018-10-09

基金项目：国家重点研发计划项目（2017YFB1402203），国家自然科学青年基金（61601337）

作者简介：杨帆，男，硕士生，研究方向为人脸特征点检测。E-mail：940417022@whut.edu.cn

通信联系人：刘晓赟，E-mail：liuxy@whut.edu.cn

摘要：为了使人脸特征点定位算法在人脸被物体遮挡的情况下仍能快速、准确地检测特征点的位置，提出了一种基于自适应特征的遮挡人脸特征点定位算法。该方法首先检测每个特征点的遮挡状态，即先训练一个逻辑回归模型，通过所有特征点周围的纹理特征快速地估计出每个特征点被遮挡的概率值；然后根据每一个特征点被遮挡的概率自适应地调整该特征点纹理特征的权重，使得被遮挡概率较大的特征点获得较小的权重值，减小人脸遮挡对特征的影响，提高特征点定位的准确度。实验结果表明，本文算法的特征点定位的平均误差达到5.94%，遮挡检测准确率/召回率达到80%/72.84%。

关键词：人脸特征点定位自适应特征遮挡检测级联回归

Facial Landmark Localization under Occlusion Based on Adaptive Feature

YANG Fan¹, XIONG Shengwu^1,2, ZHOU Junwei¹, LIU Xiaoyun³

1. School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430070, Hubei, China;
2. Hubei Key Laboratory of Transportation Internet of Things, Wuhan University of Technology, Wuhan 430070, Hubei, China;
3. School of Arts and Law, Wuhan University of Technology, Wuhan 430070, Hubei, China

Abstract: In order to make the facial landmark localization algorithm detect the position of feature points quickly and accurately when the face is occluded by objects, this paper proposes a facial landmark localization under occlusion method based on adaptive feature extraction. The method first detected the occlusion state of each feature point, that is, first trained a logistic regression model, and quickly estimated the probability value of each feature point being occluded with the texture features around all landmarks. Then, adaptive weights were assigned to each feature point according to their estimated occlusion probability, so that the feature points with larger occlusion probabilities were assigned smaller weight values, therefore the impact of facial occlusion on the feature was decreased, and the accuracy of landmark localization was improved. Quantitative experiments on the challenging COFW benchmark show that the proposed method obtains the state-of-art results in terms of localization accuracy and occlusion detection, with an average localization error of 5.94% and a precision/recall of 80%/72.84%.

Key words: facial landmark localization adaptive feature extraction occlusion detection cascaded regression

0 引言

人脸特征点定位，即检测双眼中心、鼻尖和左右嘴角等特征点的位置，提供了人脸几何结构等关键信息，是人脸识别^[1]、人脸3D建模^[2]和表情识别^[3]等研究的重要基础。在人脸特征点定位领域，目前主流的机器学习算法模型为级联姿态回归^[4]，该模型在无遮挡人脸数据集上取得了非常好的评测性能^[5]。然而，当人脸被物体部分遮挡时，如佩戴墨镜和口罩，级联回归算法的性能呈现出较大程度的下降^[6]。

针对遮挡条件下的人脸特征点定位问题，国内外的学者进行了一系列的研究，按照遮挡检测的方式可以划分为两类：基于隐式和基于显式遮挡检测的人脸特征点定位方法。基于隐式的方法是通过稀疏编码、贝叶斯推断和注意力机制等方法隐式地确定被遮挡的人脸特征点^{[5, 7, 8]}。由于没有使用任何特征点的遮挡状态标签，只是依据某些假设进行遮挡状态的推断，因此其遮挡检测的效果较差。基于显式的方法显式地估计出每一个特征点是否被物体遮挡，根据每个特征点的遮挡情况针对性地调整回归模型，从而增强定位算法对于遮挡的鲁棒性^{[6, 9]}。然而，由于人脸姿态的多样性和遮挡物体的复杂性，仅根据有限个位置的遮挡状态标签建立的遮挡检测模型在实际测试过程中未能取得理想的效果。

由以上分析可知，目前已有的测评数据库存在标定信息不足的问题，即不包含任何遮挡状态标签或者只包含有限个特定位置的遮挡状态标签等问题。针对以上问题，我们对该领域最权威的COFW数据库^[4]的训练样本和测试样本手工标定遮挡区域掩模（mask）。基于手工标定的遮挡区域掩模，训练一个逻辑回归模型，直接根据特征点的纹理特征回归得到特征点被遮挡的概率值，然后赋予遮挡概率较大的特征点以较小的权重，从而降低遮挡对人脸特征点定位算法的影响，提高定位算法的定位准确度。

1 本文方法 1.1 标定人脸被遮挡区域

现实生活中人脸被遮挡的情况较为复杂，遮挡物体可以是帽子、眼镜、口罩等，遮挡区域的位置、形状和面积也具有随机性，如图 1所示。

图 1 被遮挡的人脸样本（红色表示特征点被遮挡，绿色表示特征点未被遮挡） Fig. 1 The occluded face examples (The red indicates being occluded, the green indicates not being occluded)

图选项

为了显式地在级联回归的每次迭代过程中估计所有特征点被遮挡的概率，首先对人脸的遮挡区域作手工标定，制作对应的遮挡区域掩模，如图 2所示。设第i张人脸图片为I_i，对应的遮挡区域掩模图像为M_i，则对于M_i中的任意元素M_i(x, y)有：

图 2 手工标定的遮挡区域掩模第一行为被遮挡的人脸图片，第二行为对应的遮挡区域掩模 Fig. 2 The manually labeled occlusion masks The first row contains the occluded faces, the second row contains the corresponding occlusion masks

图选项

(1)

因此，通过查询遮挡区域掩模M_i，在训练过程中可以获得每一个特征点的遮挡状态标签。

1.2 提取形状索引特征

为了描述特征点周围区域的纹理特征，我们提取每一个特征点周围的HOG特征^[10]。HOG特征是一种基于梯度的直方图特征，本文中HOG特征的提取过程主要包括4个步骤：

1）以特征点的当前位置为中心，将其周围的一块正方形区域划分为B×B个Cell；

2）计算每个Cell中每个像素的梯度大小及方向；

3）在每个Cell中，按照梯度方向计算梯度大小分布直方图Bins；

4）将所有Cell作为一个Block，对Block内Bins的数值作归一化处理；

为了充分利用所有特征点的纹理特征，使得每个特征点在定位过程中都能得到其他特征点处纹理特征的帮助，级联回归算法框架首先分别提取每一个特征点处的纹理特征，然后将所有L个特征点的纹理特征拼接为一个整体的纹理特征。由于该纹理特征直接由当前人脸形状决定，因此被称作形状索引特征^[4]，形状索引特征的提取方式如图 3所示。

图 3 基于HOG特征的形状索引特征提取 Fig. 3 Shape-indexed feature extraction based on HOG descriptor

图选项

1.3 估计特征点被遮挡概率

在训练阶段，获取了每个特征点的遮挡状态标签和整个形状索引特征之后，我们建立一个逻辑回归模型，估计出每个特征点被遮挡的概率值。

假设训练集一共包含N个样本，其中第i张人脸图片的ground truth形状，即所有L个特征点的ground truth位置为：

(2)

在级联回归过程中，第t-1次迭代的输出，即所有L个特征点的预测位置，作为第t次迭代的输入，记为，即：

(3)

通过查询对应的遮挡区域掩模M_i，可以获得每个特征点的遮挡状态标签，即：

(4)

由于训练集一共有N个样本，将所有的o_i^t行向量在竖直方向上排列为一个遮挡标签矩阵O^t，即：

(5)

类似地，第i张图片所有L个特征点的HOG特征可以拼接成一个形状索引特征行向量

(6)

其中，f_ij^t表示从第i张人脸图片的第j个特征点处提取到的HOG特征。因此，所有N个样本的形状索引特征行向量可以在竖直方向上排列为一个形状索引特征矩阵

(7)

对于第i个训练样本，其形状索引特征为，所有特征点的遮挡状态标签为o_i^t，为了求解的方便，分别对每一个特征点的遮挡概率进行估计。对于第j个特征点，共有N个训练样本，即，其中 f_i^t是用于估计第j个特征点遮挡概率的特征，o_ij^t则是遮挡状态标签，1表示特征点被遮挡，0表示特征点未被遮挡。不妨设表示给定特征为 f_i^t，第j个特征点被遮挡的条件概率，则有：

(8)

其中，w_j ^t是待求解的逻辑回归权重向量。不妨令，则待优化的目标函数如下：

(9)

其中I（∙)是Indicator函数，条件为真则返回1，否则返回0。由于w_j^t向量维度较高，易导致模型过拟合，我们对（9）式施加L₁正则化，即：

(10)

由（10）式求解出的w₁^t，w₂^t，…，w_L^t 构成一个稀疏逻辑回归矩阵W_o^t，即：

(11)

因此，所有N个训练样本的特征点遮挡概率矩阵为：

(12)

以上过程如图 4所示。

图 4 特征点遮挡检测示意图为了更好的展示效果，这里只展示5个代表性特征点的遮挡概率估计流程，其顺序依次为（左眼中心，右眼中心，鼻尖，左嘴角和右嘴角） Fig. 4 The illustration of landmark occlusion detection process For better visualization effect, only the occlusion probability estimation of five representative landmarks is displayed here, the order of landmarks are (left eye center, right eye center, nose tip, left mouth corner, and right mouth corner)

图选项

1.4 自适应特征

为了提高形状索引特征对遮挡的鲁棒性，根据每个特征点的遮挡概率对其纹理特征作自适应的调整，遮挡概率较大的特征点，其纹理特征被赋予较小的权重；遮挡概率较小的特征点，其纹理特征被赋予较大的权重，从而降低由遮挡引起的噪声，增强形状索引特征的鲁棒性。

假设特征点的遮挡概率与其特征权重之间存在线性关系，则有^[1]：

(13)

其中，表示第i个样本第j个特征点在第t次迭代时估计得到的遮挡概率，表示赋予第i个样本第j个特征点的纹理特征的权重，则最终的自适应特征可以表示为：

(14)

1.5 算法流程

本文所提出的基于自适应特征的遮挡人脸特征点定位算法（adaptive feature based facial landmark localization under occlusion，AF- FLLO）整体流程如下：

Algorithm 1 AF⁃FLLO算法
Input：人脸图片I_i，初始人脸形状S_i⁰
1. For t= 1 to T do
2. //提取形状索引特征
3. //由逻辑回归估计每个特征点的遮挡概率
4. //根据遮挡概率计算自适应的特征权重
5. //根据特征权重得到自适应特征
6. //根据自适应特征作线性回归得到形状增量S
7. //更新当前形状
8. Endfor
Output：S_i^t//输出最终人脸形状

2 实验与结果分析 2.1 数据集

本文采用的数据集为针对遮挡人脸特征点定位的COFW数据集^[4]，该数据集一共包含1 345张训练人脸图片和507张测试人脸图片。对于每一张人脸图片，COFW提供了所有29个特征点的ground truth位置和遮挡状态标签，如图 1所示。在此基础之上，我们针对训练集手工标定了594个样本对应的遮挡区域掩模，针对测试集手工标定了507个样本对应的遮挡区域掩模，如图 2所示。

2.2 测评指标

本文的测评指标有两个，分别度量遮挡检测和特征点定位的性能。

对于遮挡检测，我们计算了准确率（Precision）和召回率（Recall），通过设置不同的分类阈值得到Precision/Recall曲线，为了直观展示遮挡检测效果，我们同时绘制了ROC曲线。

对于特征点定位，计算了归一化平均定位误差（normalized mean error，NME），失败率（failure rate）并绘制了累计误差分布（cumulative error distribution，CED）曲线。

归一化平均定位误差的定义如下：

(15)

其中，N是样本数量，L是特征点数量，l_i和r_i分别表示第i个样本的左眼中心位置与右眼中心位置，p_ij表示第i个样本第j个特征点的预测位置，g_ij表示第i个样本第j个特征点的ground truth位置。失败率定义为NME大于10%的样本数量与总样本数量的比值，CED曲线的横坐标为误差限，纵坐标为NME不大于该误差限的样本数量与总样本数量的比值F。

2.3 实验环境配置

CPU：Intel（R）Core（TM）i7-7700 3.60 GHz；操作系统：Windows 8.1；软件环境：Matlab 2018B。

2.4 实验参数设置

1）样本扩充：为了增加训练样本的数量，我们对训练集做了样本扩充（augmentation），即通过水平翻转图片产生两倍（1 345×2）的训练样本。

2）特征提取：对于每一个特征点，提取它周围32 pixel ×32 pixel区域内的HOG特征，Cell Size为8×8，Block Size为4×4。

3）遮挡概率预测：稀疏逻辑回归模型中的正则项惩罚系数λ= 0.01，在训练集上作5折交叉验证得到。

4）形状增量回归：根据自适应特征回归形状增量，采用的L₁-正则化线性回归（即LASSO）模型，正则项惩罚系数λ′= 0.1，在训练集上作5折交叉验证得到。

5）对照实验：为了验证本文提出的自适应特征相比于传统的形状索引特征的有效性，依据控制变量法的原则设置了一组对照实验，即保持其他参数不变，将自适应特征替换为传统的基于HOG描述子的形状索引特征。为了简化表述，将使用传统形状索引特征的方法记作FLLO（facial landmark localization under occlusion）。

2.5 评测结果及分析

1）遮挡检测

本文AF-FLLO算法的遮挡检测Precision/Recall曲线如图 5所示，ROC曲线如图 6所示。从图 5和图 6中可以看出AF-FLLO方法相比于RCPR方法在遮挡检测的准确度方面取得了明显的提升。

图 5 特征点遮挡检测Precision/Recall曲线 Fig. 5 The precision/recall curve of landmark occlusion Detection

图选项

图 6 特征点遮挡检测ROC曲线 Fig. 6 The ROC curve of landmark occlusion detection

图选项

为了与其他同类方法做公平且定量的比较，我们将Precision固定为80%，比较Recall值，Recall值越大则遮挡检测的效果越好。与本文方法作比较的有：RCPR（robust cascaded pose regression）^[4]，FLPD（simultaneous facial landmark detection，pose and deformation estimation）^[9]，Crasm29（cascade regression with adaptive shape model for 29 landmarks）^[6]，DCFE（deeply-initialized coarse-to-fine ensemble）^[11]。比较结果如表 1所示。

表1 与同类方法的遮挡检测效果对比 Table 1 The comparison of occlusion detection performance with competitive methods

%
方法	准确率/召回率
RCPR^[4]	80/37. 67
FLPD^[9]	80/44. 43
Crasm29^[6]	80/48. 45
DCFE^[11]	81. 59/49. 57
AF⁃FLLO	80/72. 84

表选项

如表 1所示，本文AF-FLLO方法的准确率/召回率为80%/72.84%，其他同类方法最好的检测效果为81.59%/49.57%。这是因为我们对原有数据集的标签信息作了完善和补充，同时使用了高效准确的稀疏逻辑回归模型显式地估计出每一个特征点的遮挡概率。

2) 特征点定位

为了客观公正地对本文AF-FLLO算法的特征点定位性能进行评测，我们选取了以下方法与本文方法对比：Crasm29^[6]，FLPD ^[9]，HOSRD（hierarchical occlusion- handling stagewise relational dictionary）^[12]，DSC-CR（dual sparse constrained cascade regression）^[5]，P- DSC- CR（pose- insensitive dual sparse constrained cascade regression）[₅]，RCPR^[4]，SDM（supervised descent method）^[13]，CRC（cascaded- regression copse）^[14]，MCNet（multi-center convolutional network）^[15]。从表 2可以看出，基于自适应特征的AF-FLLO在NME和失败率两个指标上都比FLLO表现更好。在失败率指标上，MCNet^[15]取得了2.96%的最好结果，部分原因在于MCNet通过样本扩增方法使得训练样本数目达到60 000以上，而本文AF-FLLO方法的训练样本数目仅为2 690（1 345×2）。

表2 不同方法的NME与失败率 Table 2 The comparison of NME and Failure Rate

%
方法	NME	失败率
Crasm29^[6]	6.68	7.69
FLPD^[9]	6.40	－
HOSRD^[12]	6.80	13
DSC⁃CR^[5]	6.40	8.28
P⁃DSC⁃CR^[5]	6.06	6.11
RCPR^[4]	8.50	20
SDM^[13]	7.70	－
CRC^[14]	7.30	－
MCNet^[15]	6.08	2.96
FLLO (ours)	6.09	6.35
AF⁃FLLO (ours)	5.94	4.96

表选项

由图 7可知，与同类的RCPR方法相比，FLLO与AF-FLLO方法在CED曲线指标上都取得了明显的提高，而AF-FLLO方法比FLLO方法在NME属于0到0.1区间的样本上有着更好的特征点定位效果。

图 7 特征点定位效果CED曲线 Fig. 7 The CED curve of the landmark localization Performance

图选项

本文AF-FLLO方法的特征点遮挡检测和定位效果如图 8所示。

图 8 AF-FLLO方法效果展示（红色表示特征点被遮挡，绿色表示特征点未被遮挡） Fig. 8 Some example samples of the proposed AF-FLLO method (The red indicates being occluded, the green indicates not being occluded)

图选项

3 结语

人脸图片中各种类型的遮挡给特征点定位任务带来了挑战。通过标定人脸遮挡区域掩模，本文提出的AF-FLLO方法可以准确地估计出每个特征点被遮挡的概率，从而自适应地为遮挡概率较大的特征点赋予较小的权重，为遮挡概率较小的特征点赋予较大的权重，降低了遮挡对人脸特征的影响，从而提高了特征点定位的准确度。

本文的方法需要标定人脸遮挡区域掩模，而人脸遮挡区域掩模的标定比较耗时，因此在下一步的工作中我们将尝试产生更多的人工合成图片，即在未遮挡的人脸上添加各种类型的人工遮挡，从而节省人力成本。

参考文献

[1]	王燕, 王双印. 基于卷积神经网络的人脸信息增强识别研究[J]. 计算机科学, 2018, 45(8): 268-271. WANG Y, WANG S Y. Research on face information enhancement and recognition based on convolutional neural network[J]. Computer Science, 2018, 45(8): 268-271. DOI:10.11896/j.issn.1002-137X.2018.08.048 (Ch).

[2]	DING C X, TAO D C. Pose-invariant face recognition with homography-based normalization[J]. Pattern Recognition, 2017, 66: 144-152. DOI:10.1016/j.patcog.2016.11.024

[3]	苏志铭, 陈靓影. 基于自回归模型的动态表情识别[J]. 计算机辅助设计与图形学学报, 2017, 29(6): 1085-1092. SU Z M, CHEN L Y. An auto-regressive model based approach to dynamic facial expression recognition[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(6): 1085-1092. DOI:10.3969/j.issn.1003-9775.2017.06.014 (Ch).

[4]	BURGOS-ARTIZZU X P, PERONA P, DOLLAR P. Robust Face landmark estimation under occlusion[C]// IEEE International Conference on Computer Vision. Washington D C: IEEE. 2013: 1513-1520. DOI: 10.1109/ICCV.2013.191.

[5]	LIU Q S, DENG J K, TAO D C. Dual sparse constrained cascade regression for robust face alignment[J]. IEEE Transactions on Image Processing, 2016, 25(2): 700-712. DOI:10.1109/TIP.2015.2502485

[6]	LIU Q S, DENG J K, YANG J, et al. Adaptive cascade regression model for robust face alignment[J]. IEEE Transactions on Image Processing, 2017, 26(2): 797-807. DOI:10.1109/TIP.2016.2633939

[7]	YU X, LIN Z, BRANDT J, et al. Consensus of regression for occlusion-robust facial feature localization[C]//Euro- pean Conference on Computer Vision. Cham: Springer. 2014: 105: 118.

[8]	刘袁缘, 谢忠, 周顺, 等. 基于条件迭代更新随机森林的非约束人脸特征点精确定位[J]. 计算机辅助设计与图形学学报, 2017, 29(10): 1881-1890. LIU Y Y, XIE Z, ZHOU S, et al. Conditional iteration updated random forests for unconstrained facial feature location[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(10): 1881-1890. DOI:10.3969/j.issn.1003-9775.2017.10.014 (Ch).

[9]	WU Y, GOU C, JI Q. Simultaneous facial landmark detection, pose and deformation estimation under facial occlusion[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington D C: IEEE, 2017: 5719- 5728.

[10]	DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D C: IEEE, 2005: 886-893. DOI: 10.1109/CVPR.2005.177.

[11]	VALLE R, BUENAPOSADA J M, VALDES A, et al. A deeply-initialized coarse-to-fine ensemble of regression trees for face alignment[C]//European Conference on Computer Vision. Berlin: Springer, 2018: 585-601.

[12]	XING J L, NIU Z H, HUANG J S, et al. Towards robust and accurate multi-view and partially-occluded face alignment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 987-1001. DOI:10.1109/TPAMI.2017.2697958

[13]	XIONG X H, DE LA TORRE F. Supervised descent method and its applications to face alignment[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington D C: IEEE. 2013: 532-539. DOI: 10.1109/CVPR.2013.75.

[14]	FENG Z H, HUBER P, KITTLER J, et al. Random cascaded-regression copse for robust facial landmark detection[J]. IEEE Signal Processing Letters, 2015, 22(1): 76-80. DOI:10.1109/LSP.2014.2347011

[15]	SHAO Z W, ZHU H L, HAO Y Y, et al. Learning a multi-center convolutional network for unconstrained face alignment[C]//IEEE International Conference on Multi- media and Expo(ICME). Washington D C: IEEE, 2017: 114. DOI: 10.1109/ICME.2017.8019505.