融合全局与局部特征的跨数据集表情识别方法

梁艳 温兴 潘家辉

梁艳, 温兴, 潘家辉. 融合全局与局部特征的跨数据集表情识别方法 [J]. 智能系统学报, 2023, 18(6): 1205-1212. doi: 10.11992/tis.202212030
引用本文: 梁艳, 温兴, 潘家辉. 融合全局与局部特征的跨数据集表情识别方法 [J]. 智能系统学报, 2023, 18(6): 1205-1212. doi: 10.11992/tis.202212030
LIANG Yan, WEN Xing, PAN Jiahui. Cross-dataset facial expression recognition method fusing global and local features [J]. CAAI Transactions on Intelligent Systems, 2023, 18(6): 1205-1212. doi: 10.11992/tis.202212030
Citation: LIANG Yan, WEN Xing, PAN Jiahui. Cross-dataset facial expression recognition method fusing global and local features [J]. CAAI Transactions on Intelligent Systems, 2023, 18(6): 1205-1212. doi: 10.11992/tis.202212030

融合全局与局部特征的跨数据集表情识别方法

doi: 10.11992/tis.202212030
基金项目: 国家科技创新2030重点项目(2022ZD0208900);国家自然科学基金项目(62076103).
详细信息
    作者简介:

    梁艳,讲师,博士,主要研究方向为计算机视觉、模式识别与智能系统等。发表学术论文20余篇;

    温兴,硕士研究生,主要研究方向为深度学习、计算机视觉、迁移学习;

    潘家辉,教授,博士,中国人工智能学会脑机融合与生物机器智能专业委员会委员,主要研究方向为模式识别与智能系统、脑机交互。主持3项国家自然科学基金项目,2项广东省自然科学基金项目,发表学术论文60余篇.

    通讯作者:

    梁艳. E-mail: liangyan@m.scnu.edu.cn.

  • 中图分类号: TP391

Cross-dataset facial expression recognition method fusing global and local features

  • 摘要: 人脸表情数据集在收集过程中存在主观的标注差异和客观的条件差异,导致表情识别模型在不同数据集间呈现明显的性能差异。为了提高跨数据集表情识别精度、减少表情识别在实际应用中进行样本打标重训练的过程,本文提出了一种基于表情融合特征的域对抗网络模型,用于跨数据集人脸表情识别。采用残差神经网络提取人脸表情的全局特征与局部特征。利用Encoder模块对全局特征与局部特征进行融合,学习更深层次的表情信息。使用细粒度的域鉴别器进行源数据集与目标数据集对抗,对齐数据集的边缘分布和条件分布,使模型能迁移到无标签的目标数据集中。以RAF-DB为源数据集,以CK+、JAFFE、SFEW2.0、FER2013、Expw分别作为目标数据集进行跨数据集人脸表情识别实验。与其他跨数据集人脸表情识别算法相比,所提方法获得了最高的平均识别率。实验结果表明,所提方法能有效提高跨数据集人脸表情识别的性能。

     

    Abstract: The expression recognition model shows significant performance differences between datasets due to subjective annotation and objective condition differences in the collection of facial expression datasets. A domain adversarial network model based on expression fusion features is proposed for cross-dataset facial expression recognition. This model aims to improve the accuracy of cross-dataset expression recognition and reduce the sample marking and retraining processes for expression recognition in practical applications. Residual neural networks are used to extract the global and local features of facial expressions. An encoder module is then employed to fuse global and local features to learn deep expression information. A fine-grained domain discriminator is adopted to antagonize the source dataset against the target dataset, aligning the edge and conditional distributions of the dataset and facilitating the migration of the model to the unlabeled target dataset. RAF-DB is used as the source dataset, and CK+, JAFFE, SFEW2.0, FER2013, and Expw are used as the target datasets for cross-dataset facial expression recognition experiments. Compared with other cross-dataset facial expression recognition algorithms, the proposed method achieves the highest average recognition rate. Experimental results show that the proposed method can effectively improve the performance of cross-dataset facial expression recognition.

     

  • 人脸表情是人类最自然、最直接的情绪表达方式之一。研究发现,在人们日常交流沟通的过程中,有55%的情感信息靠人脸表情进行传递[1]。研究人脸表情识别有效促进人机交互系统的发展。目前,该技术已广泛应用在医学、安全监控、教育等领域[2]

    为了推动人脸表情识别的理论研究与实际应用,在过去的十几年里,研究者们已公开了多个表情数据集,并提出了多种方法来提高表情识别的性能。但是,大部分的表情识别算法都基于一个前提,即:训练集和测试集来自同一个数据集,训练数据和测试数据特征分布相同。然而这一假设并不总是成立,在实际应用中,测试集与训练集通常来自不同的数据分布,因此模型需要进行跨数据集表情识别验证。

    近年来,领域自适应方法成为迁移学习中最为热门的研究之一,其核心问题是解决数据分布不一致对模型性能的影响。Xu等[3]证明,把源域和目标域的特征范数调整到一个较大范围的值可以获得显著的迁移收益。Lee等[4]利用特定任务的决策边界和Wasserstein度量在领域之间进行特征分布对齐。考虑到领域自适应方法在解决跨域问题的有效性,有学者尝试把基于统计差异的领域自适应方法用于跨数据集表情识别任务。莫宏伟等[5]利用一个特征变换矩阵,把源域和目标域数据映射到公共子空间,减小域间分布差异。Long等[6]基于统计的思想提出了一种新的深度自适应网络(deep adaptation network,DAN)架构,把领域自适应方法与深度学习技术结合起来。Li等[7]将DAN网络应用到人脸表情识别,引入最大均值误差(maximum mean discrepancy,MMD)来测量源域与目标域的特征散度,减小源域与目标域的分布距离。Xu等[8-9]基于MMD损失寻找远离表情特征中心的异常样本,并在训练过程中通过抑制异常样本来提高跨数据集表情识别准确率。

    受对抗学习技术的启发,有部分学者采用基于对抗学习的领域自适应方法,即域对抗自适应方法,实现跨数据集表情识别。该类方法的核心思想是加入一个域鉴别器,使之与表情分类器进行对抗,在对抗过程中学习到同时适用于两个数据集的表情特征。Chen等[10]将经典的域对抗自适应方法:领域对抗神经网络(domain-adversarial neural network,DANN)[11]、条件域对抗自适应网络(conditional domain adversarial network,CDAN)[12]应用到跨数据集表情识别任务,学习领域不变性特征。Wang等[13]在域对抗中通过缩小目标数据集样本与源数据集对应类别的特征中心的距离,扩大与源数据集不同类别的特征中心的距离,实现类级别的对齐。

    领域自适应方法仅在特征分布层面上对齐不同域特征分布,目标数据集无需提供标签信息,因此可应用于无监督的跨数据集表情识别[14]。但是,目前大部分基于领域自适应的跨数据集表情识别方法仅对齐表情特征的边缘分布,未关注不同数据集间的表情类内差异导致特征的条件分布差异。而使用通用的域对抗自适应算法强行对齐两个数据集间的整体分布,将不可避免地把来自源数据集和目标数据集的不同表情类别样本混合在一起,导致不同表情数据集间类别不匹配问题。

    因此,为了提高跨数据集表情识别的特征可迁移性,解决跨数据集表情类别不匹配问题,本文提出一种利用表情融合特征对齐不同数据集联合分布的领域自适应方法,利用编码器(Encoder)模块融合表情的全局特征和局部特征,并通过表情分类器与细粒度域鉴别器联合对抗训练,提高分类器在无标签的目标数据集的识别效果。

    在跨数据集表情识别任务中,给定一个源数据集 $ {D_s} = \{ (x_i^s,y_i^s)\} _{i = 1}^{{n_s}} $ 和目标数据集 $ {D_t} = \{ (x_j^t)\} _{j = 1}^{{n_t}} $ ,其中 $x$ 表示样本, $n$ 表示样本数量。这两个数据集在两种不同环境下采样,具有不同的分布 ${p_s}\left( {X,Y} \right)$ ${p_t}\left( {X,Y} \right)$ ,其中目标数据集样本不提供标签。为了提升跨数据集表情识别性能,本文从两方面进行改进,提高跨数据集表情识别性能。1)通过关注人脸表情的关键区域,学习更多表情相关信息,提高表情特征的可迁移性,抑制数据集自带的偏差。2)使用细粒度的对抗领域自适应策略,对齐表情类级别的信息。本文提出的域对抗网络模型框架如图1所示。该模型主要由特征提取器、表情分类器和域鉴别器3部分组成。特征提取器利用多残差网络(multi-ResNet)提取人脸表情的全局和局部特征,然后利用Encoder层进行表情特征融合。表情分类器由两层全连接网络构成,根据融合特征对表情进行分类。域鉴别器用于与表情分类器进行联合对抗,本文通过把传统域鉴别器的2个域判别通道(即源域和目标域)扩展为 $ 2K $ 通道( $ K $ 为表情类别数),进行不同数据集间的整体对抗和不同数据集相同表情类别间的细粒度对抗,达到同时对齐数据边缘分布和条件分布的效果。

    图  1  基于表情融合特征的域对抗网络模型框架
    Fig.  1  Framework for domain adversarial network based on facial expression fusion feature
    下载: 全尺寸图片

    根据人脸动作单元(action unit,AU)[15]的划分可知,表情的决定性信息聚集在人脸的五官位置。为了提高表情特征的可迁移性,本文提取人脸区域的全局特征和五官区域的局部特征,并利用Encoder模型进行特征融合。特征提取器的具体结构如图2所示。

    图  2  特征提取器的结构
    Fig.  2  Structure of feature extractor
    下载: 全尺寸图片

    首先使用多任务卷积神经网络(multi-task convolutional neural network,MTCNN)[16]对表情数据集的人脸图像进行人脸定位以及5个关键点(左眼、右眼、鼻子、左嘴角、右嘴角)定位。然后,将人脸区域输入到四层残差网络[17],提取表情的全局特征。此外,以关键点为中心,截取5个大小为 $0.2W \times 0.2H$ (WH分别为人脸区域的宽和高)的子图作为判断表情类别的关键区域,输入两层残差网络,提取表情的局部特征。

    为了使模型学习到领域不变性的表情特征,本文基于Transformer[18]的Encoder模块,设计了一个具有 $N$ 层的表情Encoder层,将上述提取的全局和局部表情特征输入Encoder层进行表情特征的融合。Encoder层包括一个多头注意力网络和一个前馈网络。首先根据全局和局部表情特征获得3个自注意力向量 $ {\boldsymbol{q}} $ $ {\boldsymbol{k}} $ $ {\boldsymbol{v}} $ [19],然后,输入多头注意力网络,根据下式计算特征间的权重,获得加权后的特征 $ {{\boldsymbol{c}}_i} $

    $$ {{\boldsymbol{c}}_i} = {\text{softmax}}(\frac{{{{\boldsymbol{q}}_i}{\boldsymbol{k}}_i^{\text{T}}}}{{\sqrt d }}){{\boldsymbol{v}}_i} $$ (1)

    其中: $ d $ 为特征维度,这里为128。把加权特征 $ {{\boldsymbol{c}}_i} $ 输入前馈网络进行学习,最终获得表情融合特征 $ {{\boldsymbol{x}}_i} $

    无监督的跨数据集表情识别任务中,其目标是学习一个表情识别模型 $G$ ,令 $ G $ 可以在不带标签的目标数据集上实现较高表情识别准确率。具体来说,表情识别模型 $ G $ 由特征提取器 $ F $ 和表情分类器 $ C $ 构成。域对抗自适应方法在解决跨域表情识别问题时,在表情识别模型 $ G $ 的基础上引入了域鉴别器 $ D $ 。通过域鉴别器 $ D $ 对表情识别模型 $ G $ 提取的表情特征进行域来源判断,在反向传播时加入梯度反转层,使模型混淆来自不同数据集的表情特征,从而使表情分类器 $ C $ 能应用到目标数据集。最后,通过表情分类器 $ C $ 和域鉴别器 $ D $ 联合对抗训练,实现在无标签的目标数据集上进行表情分类。

    大部分域对抗自适应方法中,域鉴别器 $ D $ 采用二分类方式区分表情特征来自源数据集还是目标数据集,再由梯度反转进行特征混淆,对齐数据集间边缘分布。但是,由于人脸表情存在类内差异大、类间差异小的特性,仅仅混淆源、目标数据集内的所有特征,会引起表情数据集间跨域类别不匹配问题。因此,本文对算法进行改进,令表情分类器 $ C $ 与域鉴别器 $ D $ 不仅在数据集间进行宏观的对抗,还增加了表情相同类间的细粒度对抗,使数据集相同类间能实现协调自适应。

    传统域对抗自适应损失为

    $$ L = \alpha {L_{{\text{cls}}}} + \beta {L_{\text{d}}} $$ (2)

    式中: $ {L_{{\text{cls}}}} $ 为表情的分类损失, $ {L_{\text{d}}} $ 为域判别损失, $ \alpha $ $ \beta $ 分别是分类损失和域判别损失的权重。 $ {L_{{\text{cls}}}} $ 的目的是帮助 $ G $ 学习到表情分类信息,它采用交叉熵损失在源数据集上最小化预测分类与真实表情分类间的区别,计算公式为

    $$ {L_{{\text{cls}}}} = - \sum\limits_{i = 1}^S {\sum\limits_{k = 1}^K {{y_{ik}}} } \log ({p_{ik}}) $$ (3)

    式中: $ S $ 表示源域样本数量, $ K $ 表示表情类别, $ {y_{ik}} $ 为源域样本 $i$ $ k $ 类的类别信息, $ {p_{ik}} $ 为表情识别模型 $ G $ 预测源域样本 $i$ 为第 $ k $ 类表情的类别信息。

    式(2)中的域判别损失 $ {L_{\text{d}}} $ 目的是帮助域鉴别器 $ D $ 区分来自不同数据集的表情特征,使提取的特征能对齐源数据集和目标数据集,损失计算公式为

    $$ \begin{gathered} {L_{\text{d}}} = - \sum\limits_{i = 1}^S {\bigg[ {(1 - d)\log P(d = 0|{x_i})} \bigg]} -\\ \sum\limits_{i = 1}^T {\bigg[ {d\log P(d = 1|{x_i})} \bigg]} \\ \end{gathered} $$ (4)

    式中: $ d $ 为0代表特征来自源数据集,为1则代表特征来自目标数据集; $ S $ 为源数据集样本数量; $ T $ 为目标数据集样本数量; $ P(d = 0|x) $ 为域鉴别器预测特征为源数据集的概率。

    传统的域鉴别器只能判别 $ d = 0 $ 或者 $ d = 1 $ ,即特征标签为 $ [1,0] $ $ [0,1] $ 。为了将表情类别信息纳入对抗性学习框架,达到同时对齐表情特征的边缘分布和条件分布的效果,本文修改了传统的域鉴别器 $ D $ ,将 $ 2 $ 个域判别通道扩展为 $ 2K $ 通道( $ K $ 为表情类别数),进行不同数据集间的整体对抗以及不同数据集相同表情类别间的细粒度对抗。通过更细粒度的对抗性学习,不仅仅对齐数据集间表情特征的边缘分布,而且对齐特征的类内条件分布。

    本文使用表情特征提取器和分类器对目标域进行软标签的标注,然后将源数据集表情图像与目标数据集表情图像的标签扩展为 $ 2K $ 维标签,其中源域标签在 $ 1 $ $ K $ 维使用原来的标签信息,在 $ K + 1 $ $ 2K $ 维数据置为0;目标域标签在1至 $ K $ 维数据置为0,在 $ K + 1 $ $ 2K $ 维使用软标签标注。通过对 $ i $ $ K + i $ 类进行对抗自适应即可实现不同数据集间表情分布对齐。

    为了实现基于类别的对抗,本文将提取的融合特征输入细粒度域鉴别器中计算细粒度类判别损失。与传统域判别损失 $ {L_{\text{d}}} $ 不同的是,本文在 $ {L_{\text{D}}} $ 加入了类别信息,具体计算公式如下:

    $$ \begin{gathered} {L_{\text{D}}} = - \sum\limits_{i = 1}^S {\sum\limits_{k = 1}^K {\bigg[ {{a_{ik}}\log P(c = k,d = 0)|{x_i}} \bigg]} } - \\ \sum\limits_{j = 1}^T {\sum\limits_{k = 1}^K {\bigg[ {{a_{jk}}\log P(c = k,d = 1)|{x_j}} \bigg]} } \\ \end{gathered} $$ (5)

    式中: $ {a_{ik}} $ $ {a}_{jk} $ 分别为源域样本 $i$ 和目标域样本 $j$ 为第 $k$ 类的信息,即上文所述构建 $ 2K $ 维的标签信息。

    此外,为了引导特征提取器 $ F $ 学习到两个数据集共用的表情特征,我们还增加了一个整体判别损失 $ {L_{{\text{adv}}}} $ ,其目的是帮助域鉴别器获取目标数据集的类别信息,从而经过梯度翻转后可以混淆两个数据集的类别信息,进而引导特征提取器 $ F $ 学习共用表情特征, $ {L_{{\text{adv}}}} $ 的计算公式如下:

    $$ {L_{{\text{adv}}}} = - \sum\limits_{j = 1}^T {\sum\limits_{k = 1}^K {\left[ {{a_{jk}}\log P(c = k,d = 0)|{x_j}} \right]} } $$ (6)

    综上所述,本文采用的总损失L

    $$ L = {\omega _1}{L_{{\text{cls}}}} + {\omega _2}{L_{\text{D}}} + {\omega _3}{L_{{\text{adv}}}} $$ (7)

    其中: $ {\omega _1} $ $ {\omega _2} $ $ {\omega _3} $ 分别是表情分类损失、细粒度类判别损失和整体判别损失的权重。

    在训练过程中,将源数据集表情图像的特征输入表情分类器中计算表情分类损失 $ {L_{{\text{cls}}}} $ ,将源、目标数据集表情图像的特征输入域鉴别器计算域判别损失 $ {L_{\text{D}}} $ $ {L_{{\text{adv}}}} $ ,最终,在域鉴别器 $ D $ 和表情分类器 $ C $ 的对抗学习下对齐不同表情数据集间的联合分布。

    本文采用6个表情数据集进行算法测试,具体包括实验室环境下的CK+[20]和JAFFE[21]数据集和自然场景下的SFEW2.0[22]、FER2013[23]、ExpW[24]、RAF-DB[25]数据集。这些数据集都包含愤怒、厌恶、恐惧、高兴、悲伤、惊讶、中性等7种表情。

    CK+数据集包含来自123个实验对象的593个图像序列,每个图像序列都是从中性表情到峰值表情。本文参照文献[7]的方法,从每个序列中抽取1帧中性表情图像和3帧表情图像,去除无效数据后共获得1236张图像进行实验。

    JAFFE数据集包括来自10位日本女性共213张图像。本文使用了所有图像进行实验。

    SFEW2.0数据集由不同电影的表情图像构成,具有不同的头部姿势、年龄范围、遮挡和照明。该数据集分为训练集、验证集和测试集,分别有958、436和372个样本。

    FER2013是一个自然场景下获得的表情数据集,包含35887张大小为48像素×48像素的图像。数据集进一步分为28709张图像的训练集、3589张图像的验证集和3589张图像的测试集。

    ExpW数据集由谷歌图像搜索中下载的表情图像构成,包含91793张人脸图像。

    RAF-DB数据集也是由互联网上收集的图像构成,共29672张表情图像,其中15339张图像有7种基本表情,分为12271个训练样本和3068个测试样本。

    遵循跨数据集表情识别的通用标准[14],本文选取平均准确率作为评价指标。首先计算出某表情类别的准确率,然后再计算所有类别的准确率均值,即为跨数据集表情识别算法的平均准确率。

    本文方法的训练目标为最小化式(7)的总损失L,以目标数据集获得最高平均准确率作为标准,训练表情识别模型 $ G $ 和域鉴别器 $ D $ 。本文分两个阶段进行训练。第一阶段,在源数据集采用随机梯度下降(stochastic gradient descent,SGD)算法训练特征提取器 $ F $ 和表情分类器 $ C $ ,初始学习率设为0.01,SGD的动量设为0.9,训练100轮后获得初始的表情识别模型 $ G $ ;第二阶段,加入域鉴别器 $ D $ ,使用总损失L进行对抗训练,使初始表情识别模型 $ G $ 迁移到不带标签的域鉴别器中,在这步骤中同样使用SGD算法训练模型,除了特征提取器 $ F $ 和表情分类器 $ C $ 的学习率降到0.001外,其余超参数均与第一阶段相同,本阶段训练采用学习率递减策略,每20轮学习率乘以0.5。式(7)中3个损失权重 $ {\omega _1} $ $ {\omega _2} $ $ {\omega _3} $ 的比值设为50∶50∶1。

    为探究融合特征对表情识别性能的影响,本文采用相同的网络提取全局特征、局部特征和融合特征,在6个数据集进行表情识别实验,结果如表1所示(文中表格加粗数据为最佳结果)。

    表  1  分别采用全局特征、局部特征、融合特征进行表情识别的结果对比
    Table  1  Comparison of expression recognition results using global features, local features, and fusion features, respectively %
    特征类型 CK+ RAF-DB JAFFE SFEW2.0 FER2013 ExpW 平均准确率
    全局特征 91.47 79.03 93.75 34.64 65.63 68.63 72.19
    局部特征 70.93 53.94 65.66 29.59 48.81 46.53 52.58
    融合特征 96.90 79.20 98.12 51.52 66.84 70.23 77.14

    从实验结果可知,本文提出的融合特征方法在6个数据集的表情识别性能均优于仅采用全局特征或局部特征的方法,它的平均表情识别准确率比仅采用全局特征的方法提高了4.95%,比仅采用局部特征的方法则提高了24.56%。由此可见,表情全局特征与局部特征存在互补性,对两种特征进行融合,可以大幅提高表情识别的准确率。

    此外,为了验证细粒度域对抗自适应方法在跨数据集表情识别任务中的有效性,我们参照文献[14]的做法,采用RAF-DB作为源域,其余5个数据集作为目标域,使用融合特征进行对抗,与无域对抗方法、两种通用域对抗自适应方法(DANN[11]和CDAN[12])进行模型迁移效果对比,实验结果如表2所示。

    表  2  无域对抗、通用域对抗、细粒度域对抗的跨数据集识别结果对比
    Table  2  Comparison of cross-dataset recognition results for non-domain adversarial, general domain adversarial, and fine-grained domain adversarial %
    方法 CK+ JAFFE SFEW2.0 FER2013 ExpW 平均准确率
    无域对抗 53.57 49.25 29.27 44.18 31.30 41.51
    通用域对抗 (DANN)[11] 80.62 54.46 45.18 51.36 63.80 59.08
    通用域对抗 (CDAN)[12] 80.95 53.52 52.72 54.18 64.63 61.20
    细粒度域对抗 80.92 61.54 51.13 55.95 68.94 63.70

    表2可知,采用细粒度域对抗自适应方法的结果均优于无域对抗方法和DANN方法,其平均准确率相较于无域对抗方法提高了22.19%,相较于DANN和CDAN方法,分别提高了4.62%和2.50%。实验结果证明,细粒度域对抗自适应方法能有效地提高跨数据集的表情识别性能。

    为验证本文方法的性能,我们把本文方法与近五年的几个跨数据集算法进行对比。所有方法均使用相同的源数据集RAF-DB和主干网络ResNet-18,分别以CK+、JAFFE、SFEW2.0、FER2013、ExpW作为目标域进行测试,结果如表3所示。其中,POCAN[13]和ESSRN[9]方法的数据来源于原文献,其他几种方法的数据则来自文献[10]对这些算法的复现结果。

    表  3  本文方法与其他方法的比较
    Table  3  Comparison of the proposed method with other methods %
    方法 CK+ JAFFE SFEW2.0 FER2013 ExpW 平均
    准确率
    SAFN[3] 68.99 49.30 50.46 53.31 68.32 58.08
    SWD[4] 72.09 53.52 49.31 53.70 65.85 58.89
    DETN[26] 64.19 52.11 42.25 42.01 43.92 48.90
    ECAN[7] 66.51 52.11 48.21 50.76 48.73 53.26
    AGRA[10] 77.52 61.03 52.75 54.94 69.70 63.19
    POCAN[13] 76.74 52.11
    ESSRN[9] 80.83 63.85 50.98
    本文方法 80.92 61.54 51.13 55.95 68.94 63.70

    表3可以看出,本文方法在CK+和FER2013进行跨数据集表情识别时,获得最优识别结果。在JAFFE、SFEW2.0和ExpW数据集也获得了次优的准确率。本文方法的平均准确率达到63.70%,高于其他方法。

    值得注意的是,本文方法在SFEW2.0和ExpW数据集的准确率稍低于AGRA方法。这可能是因为两个数据集均为自然场景下获取的数据集,部分人脸存在较大的头部姿态变化以及面部遮挡等问题,导致局部表情特征获取失败,影响了本文提出的表情识别模型的性能。

    为了进一步证明细粒度域鉴别器能有效地对齐不同数据集表情类别间的分布,我们把迁移过程中不同阶段的表情特征进行可视化展示和对比。具体来说,我们以RAF-DB为源数据集,CK+为目标数据集,将迁移过程的4个阶段:训练前,细粒度域对抗前(仅在源数据集训练),细粒度域对抗中(加入目标数据集后,经过30轮的训练),细粒度域对抗后。这四种情况的表情特征使用t-SNE算法[27]降维,进行可视化展示,如图3所示。

    图  3  RAF-DB迁移到CK+的4个阶段的特征分布
    Fig.  3  Feature distribution of four stages of RAF-DB transfer to CK+
    下载: 全尺寸图片

    图3可以看到,在模型训练前,两个数据集表情类别的特征分布非常混杂,无法进行表情分类。在细粒度域对抗前,由于已经在源数据集进行了第一阶段的表情分类训练,两个数据集的相同表情类别的特征聚类开始显现。在细粒度域对抗训练过程中,两个数据集的相同表情类别聚类更明显,类间差距也逐渐扩大。细粒度域对抗训练完成后,两个数据集的特征已呈现聚类,表情的类间分布差异明显。这表明,通过细粒度域对抗训练,可以学习到不同数据集的相同表情类别信息,并聚合在一起,同时加大不同表情类间距离,从而降低两个数据集间的特征分布差异。

    为了解决跨数据集表情识别的问题,本文提出了一种基于表情融合特征的域对抗网络模型。该模型利用Encoder模块融合表情的全局和局部特征,在提高表情特征的鲁棒性的同时,减少了表情特征的跨域差异,有利于后续表情模型的迁移。此外,为了解决不同表情数据集的类别不匹配导致跨数据集识别精度下降的问题,本文基于表情类别进行细粒度的对抗学习。在实验部分,本文通过消融实验及可视化实验证明特征融合以及细粒度域对抗自适应方法的有效性。通过与近年几个表现优异的算法比较,证明了本文方法的有效性。目前,本文算法仅在公开表情数据集进行跨数据集实验达到较为理想的效果,在未来研究中,我们将尝试构建个人数据集验证算法的鲁棒性和实用性,并把算法推广到动态表情数据上,提高动态表情的跨数据集效果。

  • 图  1   基于表情融合特征的域对抗网络模型框架

    Fig.  1   Framework for domain adversarial network based on facial expression fusion feature

    下载: 全尺寸图片

    图  2   特征提取器的结构

    Fig.  2   Structure of feature extractor

    下载: 全尺寸图片

    图  3   RAF-DB迁移到CK+的4个阶段的特征分布

    Fig.  3   Feature distribution of four stages of RAF-DB transfer to CK+

    下载: 全尺寸图片

    表  1   分别采用全局特征、局部特征、融合特征进行表情识别的结果对比

    Table  1   Comparison of expression recognition results using global features, local features, and fusion features, respectively %

    特征类型 CK+ RAF-DB JAFFE SFEW2.0 FER2013 ExpW 平均准确率
    全局特征 91.47 79.03 93.75 34.64 65.63 68.63 72.19
    局部特征 70.93 53.94 65.66 29.59 48.81 46.53 52.58
    融合特征 96.90 79.20 98.12 51.52 66.84 70.23 77.14

    表  2   无域对抗、通用域对抗、细粒度域对抗的跨数据集识别结果对比

    Table  2   Comparison of cross-dataset recognition results for non-domain adversarial, general domain adversarial, and fine-grained domain adversarial %

    方法 CK+ JAFFE SFEW2.0 FER2013 ExpW 平均准确率
    无域对抗 53.57 49.25 29.27 44.18 31.30 41.51
    通用域对抗 (DANN)[11] 80.62 54.46 45.18 51.36 63.80 59.08
    通用域对抗 (CDAN)[12] 80.95 53.52 52.72 54.18 64.63 61.20
    细粒度域对抗 80.92 61.54 51.13 55.95 68.94 63.70

    表  3   本文方法与其他方法的比较

    Table  3   Comparison of the proposed method with other methods %

    方法 CK+ JAFFE SFEW2.0 FER2013 ExpW 平均
    准确率
    SAFN[3] 68.99 49.30 50.46 53.31 68.32 58.08
    SWD[4] 72.09 53.52 49.31 53.70 65.85 58.89
    DETN[26] 64.19 52.11 42.25 42.01 43.92 48.90
    ECAN[7] 66.51 52.11 48.21 50.76 48.73 53.26
    AGRA[10] 77.52 61.03 52.75 54.94 69.70 63.19
    POCAN[13] 76.74 52.11
    ESSRN[9] 80.83 63.85 50.98
    本文方法 80.92 61.54 51.13 55.95 68.94 63.70
  • [1] MEHRABIAN A. Communication without words[M]//Communication theory. [S. l. ]: Routledge, 2017: 193−200.
    [2] LI Shan, DENG Weihong. Deep facial expression recognition: a survey[J]. IEEE transactions on affective computing, 2022, 13(3): 1195–1215. doi: 10.1109/TAFFC.2020.2981446
    [3] XU Ruijia, LI Guanbin, YANG Jihan, et al. Larger norm more transferable: an adaptive feature norm approach for unsupervised domain adaptation[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2020: 1426−1435.
    [4] LEE Chenyu, BATRA T, BAIG M H, et al. Sliced Wasserstein discrepancy for unsupervised domain adaptation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 10277−10287.
    [5] 莫宏伟, 傅智杰. 基于迁移学习的无监督跨域人脸表情识别[J]. 智能系统学报, 2021, 16(3): 397–406. doi: 10.11992/tis.202008034

    MO Hongwei, FU Zhijie. Unsupervised cross-domain expression recognition based on transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 397–406. doi: 10.11992/tis.202008034
    [6] LONG Mingsheng, CAO Yue, WANG Jianmin, et al. Learning transferable features with deep adaptation networks[C]//32nd International Conference on Machine Learning. Lille: ICML, 2015, 1: 97−105.
    [7] LI Shan, DENG Weihong. A deeper look at facial expression dataset bias[J]. IEEE transactions on affective computing, 2022, 13(2): 881–893. doi: 10.1109/TAFFC.2020.2973158
    [8] XU Xiaolin, ZHENG Wenming, ZONG Yuan, et al. Sample self-revised network for cross-dataset facial expression recognition[C]//2022 International Joint Conference on Neural Networks. Padua: IEEE, 2022: 1−8.
    [9] XU Xiaolin, ZONG Yuan, LU Cheng, et al. Enhanced sample self-revised network for cross-dataset facial expression recognition[J]. Entropy, 2022, 24(10): 1475. doi: 10.3390/e24101475
    [10] CHEN Tianshui, PU Tao, WU Hefeng, et al. Cross-domain facial expression recognition: a unified evaluation benchmark and adversarial graph learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(12): 9887–9903. doi: 10.1109/TPAMI.2021.3131222
    [11] GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. New York: ACM, 2015: 1180−1189.
    [12] LONG Mingsheng, CAO Zhangjie, WANG Jianmin, et al. Conditional adversarial domain adaptation[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: ACM, 2018: 1647−1657.
    [13] WANG Chao, DING Jundi, YAN Hui, et al. A prototype-oriented contrastive adaption network for cross-domain facial expression recognition[C]//Asian Conference on Computer Vision. Cham: Springer, 2023: 324−340.
    [14] XIE Yuan, CHEN Tianshui, PU Tao, et al. Adversarial graph representation adaptation for cross-domain facial expression recognition[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1255−1264.
    [15] TIAN Yingli, KANADE T, COHN J F. Recognizing action units for facial expression analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(2): 97–115. doi: 10.1109/34.908962
    [16] ZHANG Kaipeng, ZHANG Zhanpeng, LI Zhifeng, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE signal processing letters, 2016, 23(10): 1499–1503. doi: 10.1109/LSP.2016.2603342
    [17] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778.
    [18] ARNAB A, DEHGHANI M, HEIGOLD G, et al. ViViT: a video vision transformer[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 6816−6826.
    [19] KHAN S, NASEER M, HAYAT M, et al. Transformers in vision: a survey[J]. ACM computing surveys, 2022, 54(10s): 1–41.
    [20] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (CK): a complete dataset for action unit and emotion-specified expression[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 94−101.
    [21] LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with Gabor wavelets[C]//Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition. Nara: IEEE, 2002: 200−205.
    [22] DHALL A, GOECKE R, LUCEY S, et al. Static facial expression analysis in tough conditions: data, evaluation protocol and benchmark[C]//2011 IEEE International Conference on Computer Vision Workshops. Barcelona: IEEE, 2012: 2106−2112.
    [23] GOODFELLOW I J, ERHAN D, LUC CARRIER P, et al. Challenges in representation learning: a report on three machine learning contests[J]. Neural networks, 2015, 64: 59–63. doi: 10.1016/j.neunet.2014.09.005
    [24] ZHANG Zhanpeng, LUO Ping, LOY C C, et al. Learning social relation traits from face images[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2016: 3631−3639.
    [25] LI Shan, DENG Weihong, DU Junping. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2584−2593.
    [26] LI Shan, DENG Weihong. Deep emotion transfer network for cross-database facial expression recognition[C]//2018 24th International Conference on Pattern Recognition. Beijing: IEEE, 2018: 3092−3099.
    [27] LAURENS V D M, HINTON G. Visualizing data using t-SNE[J]. Journal of machine learning research, 2008, 9(2605): 2579–2605.
WeChat 点击查看大图
图(3)  /  表(3)
出版历程
  • 收稿日期:  2022-12-29
  • 网络出版日期:  2023-08-01

目录

    /

    返回文章
    返回