耦合关系自学习的人脸年龄估计研究

田青 毛军翔 曹猛

田青, 毛军翔, 曹猛. 耦合关系自学习的人脸年龄估计研究 [J]. 智能系统学报, 2022, 17(2): 257-265. doi: 10.11992/tis.202101020
引用本文: 田青, 毛军翔, 曹猛. 耦合关系自学习的人脸年龄估计研究 [J]. 智能系统学报, 2022, 17(2): 257-265. doi: 10.11992/tis.202101020
TIAN Qing, MAO Junxiang, CAO Meng. Research on the coupled-relationships self-learning human facial age estimation [J]. CAAI Transactions on Intelligent Systems, 2022, 17(2): 257-265. doi: 10.11992/tis.202101020
Citation: TIAN Qing, MAO Junxiang, CAO Meng. Research on the coupled-relationships self-learning human facial age estimation [J]. CAAI Transactions on Intelligent Systems, 2022, 17(2): 257-265. doi: 10.11992/tis.202101020

耦合关系自学习的人脸年龄估计研究

doi: 10.11992/tis.202101020
基金项目: 国家自然科学基金项目(62176128,61702273);江苏省自然科学基金项目(BK20170956);模式识别国家重点实验室开放课题(202000007);机器智能与模式分析工信部重点实验室开放课题(NJ2019010).
详细信息
    作者简介:

    田青,副教授,主要研究方向为机器学习和模式识别。发表学术论文30余篇;

    毛军翔,硕士研究生,主要研究方向为机器学习和模式识别。曾荣获2019年美国大学生数学建模竞赛特等奖,2019年Marhorcup高校数学建模挑战赛全国一等奖;

    曹猛,硕士研究生,主要研究方向为机器学习和模式识别.

    通讯作者:

    田青. E-mail: tianqing@nuist.edu.cn.

  • 中图分类号: TP391

Research on the coupled-relationships self-learning human facial age estimation

  • 摘要: 在目前已提出多种人脸年龄估计(age estimation, AE)潜在关系挖掘的工作,绝大多数工作仅局限于挖掘单一层面的潜在关系,极少考虑多层面耦合关系的挖掘。因此,本文提出一种耦合关系自学习的AE模型CRSAE,以此挖掘输入特征关系、输出编码关系以及输入输出关系3种耦合关系,提高AE模型的泛化能力。首先对投影矩阵的行列协方差矩阵建模,构建输入特征关系与输出编码关系正则项。其次,本文通过引入一个结构矩阵,发掘输入输出关系。随后,为有效求解CRSAE模型,本文构建一种交替优化方法。鉴于面部特征具有高度非线性的特征,本文在所提出模型的基础上引入深度架构进一步提升模型的泛化能力。最后,通过在多个人脸图像数据集上的年龄评估实验,验证了所提模型的有效性和性能优越性。

     

    Abstract: Although a variety of human facial age estimation (AE) potential relationship-exploiting works have been proposed, most of them are limited to exploiting one-sided potential relationships, rarely considering multi-sided coupled relationships. Therefore, we propose a coupled relationships self-learning age estimation model—CRSAE, which can exploit three kinds of potential relationships, i.e., input feature relationships, output coding relationships, and input-output relationships, to improve the generalization of AE models. Specifically, the row and column covariance matrices of the projection matrix are modeled to construct the regularizer of the feature and coding relationships. The input-output relationships are then exploited through a structure matrix. To solve our proposed CRSAE model effectively, we present an alternating optimization algorithm. In view of the highly nonlinear characteristics of facial features, we also extend our proposed model with a deep architecture to further enhance its generalization. Finally, evaluation experiments are conducted to demonstrate the effectiveness and superiority of our proposed methods on multiple human facial datasets.

     

  • 如今,计算机技术飞速发展,人脸年龄估计(age estimation, AE)作为机器学习、模式识别领域的经典研究课题,吸引了众多学者的目光,并被广泛应用于辅助身份识别[1]、智能服务推荐[2-4]等众多应用场景。

    鉴于人脸的连续变化,绝大多数现有工作借助不同的人脸先验信息关系构建AE模型。有序性为AE工作中常用的先验关系。文献[5]提出一种LBP特征的代价敏感版本CS-LBPL,将代价敏感学习融入LBP特征,借助超平面序列排序器进行AE。文献[6]考虑直接在特征上利用年龄属性的有序信息,并提出一种用于保持人脸图像局部流型结构与年龄间序列特征的特征提取方法,随后借助超平面序列排序器获取AE结果。文献[7]引入 ${L_p}$ 范数计算类别中心,以便获取更鲁棒的有序投影。文献[8]结合AlexNet网络提出一种输出有序回归损失预测年龄。文献[9]认为OR-CNN[8]未能保护面部图像之间的有序关系,由此提出ODFL算法预训练VGG-16网络,以提取面部图像的有序结构关系。鉴于人脸老化过程包含连续渐变的特性,近邻相似关系被考虑运用至AE。文献[10]提出标记分布学习(label distribution learning, LDL)以刻画年龄属性的近邻相似性。随后,文献[11-13]借助深度网络学习图像特征并结合LDL,获得更优的AE结果。另一方面,文献[14]结合深度随机森林采用LDL刻画年龄的近邻相似语义信息。

    尽管现有AE工作估计性能表现较好,然而绝大部分工作仅着重考虑有序性、近邻相似性等年龄属性的固有特性,或者AE任务与其余面部属性估计任务的关联,极少AE工作考虑挖掘年龄属性内部潜在的关系。为利用人类年龄属性存在有序性、近邻相似性等固有特性,同时挖掘年龄属性内部潜在关系,文献[15-16]尝试将累积属性编码(cumulative attribute, CA)[17]结构作为AE先验信息,挖掘CA编码内在关系,并取得了良好的AE效果。这一现象验证了CA编码之间存在潜在关系。

    与此同时,文献[18]指出,基于面部特征空间混合高斯建模的年龄估计效果优于单高斯建模。这一事实表明人脸特征空间应服从混合高斯分布,而混合高斯分布的多峰性表征了随着人类年龄的增长,面部各区域容貌变化程度不一致的事实。因此,本文认为同一幅图像所提取的各维度特征向量之间应该存在某种未被发掘的内在联系,即人脸样本特征之间存在潜在联系。

    不仅如此,样本特征关系经过回归函数映射至CA编码空间后,这些关系将线性传递至对应编码之中,原始面部特征之间的关系经过线性变换传递至输出空间。因此,在AE问题当中,这种线性变换,即投影矩阵W,作为输入输出的桥梁亦蕴含某种潜在关系有待发掘。

    为发掘上述3种潜在关系,即输入特征关系、输出编码关系以及输入输出关系,本文提出一种耦合(本文耦合不仅指在输入与输出的耦合,同时指在样本空间或编码空间内的自关系耦合。)关系自学习年龄估计模型CRSAE (coupled relationships self-learning age estimation)。具体而言,本文借助CA编码策略编码年龄标签以刻画人脸固有的有序特性与近邻相似特性。与此同时,为投影矩阵W构建矩阵变量高斯分布模型用以挖掘输入特征关系与输出编码关系,并引入一个低秩结构矩阵用以捕获输入输出关系。有别于现有的年龄属性关系挖掘模型,本文提出的CRSAE模型不仅能够利用这三类耦合关系,同时能够自动挖掘这些潜在关系而无需手工定义。鉴于面部特征具有高度非线性的特性[19],本文在所提出的模型的基础上引入深度架构进一步提升模型的泛化能力。

    在AE问题中,Chen等[17]为保留年龄标签的近邻相似性、有序性等内在特性,对one-hot编码策略[20]进行改进,提出了CA编码策略,其编码形式为

    $$y_i^k = \left\{ \begin{gathered} 1,\quad k \leqslant {l_i} \\ 0,\quad k > {l_i} \end{gathered} \right.$$ (1)

    式中: $y_i^k$ 表示第 $i$ 个样本的第 $k$ 位编码元素; ${l_i}$ 表示第 $i$ 个样本的真实标记。相较于one-hot编码策略,可以发现在CA编码中,所有不大于对应样本标签的编码元素均置1,其余元素置0。这样的编码策略,使得CA编码能够很好地体现年龄的内在特性,如近邻相似性、有序性等。

    随后,Tian等[15]为挖掘CA编码内部的潜在关系,对标签编码矩阵引入差分操作,用来描述标签编码矩阵的0阶和1阶关系,其损失函数为

    $$\begin{gathered} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}}{\rm{ = [}}{{\widetilde {\boldsymbol{w}}}_1}\;{{\widetilde {\boldsymbol{w}}}_2}\;\cdots\;{{\widetilde {\boldsymbol{w}}}_K}{\rm{]}}} {\rm{ }}\frac{1}{2}\sum\limits_{k = 1}^K {||{{\boldsymbol{Y}}^k} - \widetilde {\boldsymbol{w}}_k^{\rm{T}}\widetilde {\boldsymbol{X}}||_F^2} + \frac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 + \\ \frac{{{\lambda _2}}}{2}{\mathcal{L}_{{\rm{CAOSR}}}} + \frac{{{\lambda _3}}}{2}{\mathcal{L}_{{\rm{CAADOR}}}} \\ \end{gathered} $$ (2)

    式中: $ {\lambda }_{1}{\text{、}}{\lambda }_{2}{\text{、}}{\lambda }_{3}$ 为非负超参数; ${{\boldsymbol{Y}}^k}$ 表示样本标签对应的CA编码矩阵第 $k$ 维行向量。鉴于线性回归函数可等价为 $f({{\boldsymbol{x}}_i}) = {{\boldsymbol{W}}^{\rm{T}}}{{\boldsymbol{x}}_i} + {\boldsymbol{b}} = [{{\boldsymbol{W}}^{\rm{T}}}\;{\boldsymbol{b}}]{[{\boldsymbol{x}}_i^{\rm{T}}\;{\boldsymbol{1}}]^{\rm{T}}}$ ,因此式中 $\widetilde {\boldsymbol{X}}{\rm{ = }}{[{{\boldsymbol{X}}^{\rm{T}}}\;{{\boldsymbol{1}}_N}]^{\rm{T}}} \in {\bf{R}}^{(d + 1) \times N}$ 表示拓展后的样本矩阵, $\widetilde {\boldsymbol{W}}{\rm{ = [}}{\widetilde {\boldsymbol{w}}_1}\;{\widetilde {\boldsymbol{w}}_2}\;\cdots \;{\widetilde {\boldsymbol{w}}_K}{\rm{]}} \in {\bf{R}}^{(d + 1) \times K}$ 表示拓展后的投影矩阵,目标函数第1项代表经验损失,第2项用于控制模型复杂度,第3项用于刻画0阶CA关系,第4项用于刻画1阶CA关系。鉴于篇幅关系,具体模型请参考文献[15]。

    尽管上述CA编码关系挖掘方法取得了良好的效果,然而同样由于差分操作的引入致使CA编码的原始结构遭到破坏。为此,文献[16]从投影矩阵 ${\boldsymbol{W}}$ 的列关系入手,构建如式(3)所示的目标函数,在保留CA编码原始结构关系的同时,自动发掘CA编码之间的潜在关系。为方便阐述,本文将此模型称为AELR (age estimation through exploring label relationships)。

    $$\begin{array}{l} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{\boldsymbol{\varOmega }}} {\rm{ }}\dfrac{1}{{2N}}{\rm{||}}{\boldsymbol{Y}}{\rm{ - }}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}{\rm{||}}_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 + \dfrac{{{\lambda _2}}}{2}{\rm{tr}}\left(\widetilde {\boldsymbol{W}}{{\boldsymbol{\varOmega }}^{ - 1}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right)\\ \quad\quad\quad\quad\quad\quad {\rm{s.t.}}\qquad {\boldsymbol{\varOmega }} \succeq 0\\ \quad\quad\quad\quad\quad\qquad\quad\; {\rm{tr}}({\boldsymbol{\varOmega }}) = 1 \end{array}$$ (3)

    式中: ${\rm{tr}}( \cdot )$ 代表矩阵求迹运算符, ${\boldsymbol{\varOmega }} \succeq 0$ 用于保证模型的凸性质。模型第1项为经验损失项,第2项用于控制模型复杂度,第3项用于自学习CA编码之间的潜在关系,而约束项 ${\rm{tr}}({\boldsymbol{\varOmega }}) = 1$ 同样用于刻画模型复杂度。

    虽然文献[15-17]的工作在AE任务上取得了一定成功,但是其仅对CA编码关系做了单方面挖掘,并未挖掘更深层或多层面的年龄属性潜在关系,从而使得AE模型泛化性能较弱。为克服这一问题,本文提出一种耦合关系自学习的人脸年龄估计模型(CRSAE),分别从输入特征关系、输出编码关系以及输入输出关系3层面发掘年龄属性的潜在关系。CRSAE流程图如图1所示。首先,对训练数据集进行人脸特征提取,得到面部特征向量。随后,结合CA编码策略,对样本标签进行CA编码,与此同时,引入的关系矩阵表示的编码关系约束、特征关系约束和输入输出关系约束,进行多层面耦合潜在关系挖掘。最后,通过SVR回归器将CA编码映射到年龄标量空间。

    图  1  耦合关系自学习的人脸年龄估计模型(CRSAE)流程
    Fig.  1  Flowchart of coupled relationships self-learning age estimation
    下载: 全尺寸图片

    受Zhang等[21]工作的启发,本文将投影矩阵 ${\boldsymbol{W}} \in {\bf{R}}^{d \times K}$ 视作随机矩阵,采用矩阵正态分布为其建模,以获取其行结构与列结构关系,其概率密度函数为

    $$\begin{gathered} {\varPsi _{d \times K}}({\boldsymbol{W}}|{\boldsymbol{E}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}) = \\ {\rm{ }}\dfrac{{\exp \left( - \dfrac{1}{2}{\rm{tr}}({\boldsymbol{\varOmega }}_F^{ - 1}({\boldsymbol{W}} - {\boldsymbol{E}}){\boldsymbol{\varOmega }}_C^{ - 1}{{({\boldsymbol{W}} - {\boldsymbol{E}})}^{\rm{T}}})\right)}}{{{{(2\text{π} )}^{dK/2}}|{{\boldsymbol{\varOmega }}_F}{|^{d/2}}|{{\boldsymbol{\varOmega }}_C}{|^{d/2}}}} \\ \end{gathered} $$ (4)

    式中:随机矩阵变量 ${\boldsymbol{W}}$ 服从矩阵正态分布: ${\varPsi _{d \times K}}({\boldsymbol{W}}|{\boldsymbol{E}}, $ $ {{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C})$ 代表其概率密度函数。 ${\boldsymbol{E}} \in {\bf{R}}^{d \times K}$ 表示随机矩阵变量 ${\boldsymbol{W}}$ 的期望; ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{\varOmega }}_C}$ 分别为矩阵 ${\boldsymbol{W}}$ 的行协方差矩阵和列协方差矩阵。由矩阵 ${\boldsymbol{W}}$ 的定义可知,其行结构关系与列结构关系可视作对样本输入特征关系与输出编码关系的刻画。因此,对这两类具有内部耦合性的潜在关系挖掘,可借助对协方差矩阵 ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{\varOmega }}_C}$ 的参数估计实现。此时,样本特征内部的潜在关系可以通过对 ${{\boldsymbol{\varOmega }}_F}$ 建模来体现,CA编码内部潜在关系可以通过对 ${{\boldsymbol{\varOmega }}_C}$ 建模来体现。与此同时,为便于计算,本文将期望矩阵 ${\boldsymbol{E}}$ 设为零矩阵。

    为建模刻画协方差矩阵 ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{\varOmega }}_C}$ ,本文结合回归模型 $f({{\boldsymbol{x}}_i}) = {{\boldsymbol{W}}^{\rm{T}}}{{\boldsymbol{x}}_i} + {\boldsymbol{b}}$ ,先对随机矩阵 ${\boldsymbol{W}}$ 进行最大后验估计,随后对参数 $ {\boldsymbol{b}}{\text{、}}{{\boldsymbol{\varOmega }}}_{F}{\text{、}}{{\boldsymbol{\varOmega }}}_{C}$ 进行最大似然估计,得到如下所示的目标函数:

    $$\begin{array}{c} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}} {\rm{ }}\dfrac{1}{{2N}}{\rm{||}}{\boldsymbol{Y}} - {\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2+\\ \dfrac{{{\lambda _2}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right)\\ {\rm{s.t.}}\quad{{\boldsymbol{\varOmega }}_F} \succeq 0, {\rm{tr}}({{\boldsymbol{\varOmega }}_F}) = 1\\ {{\boldsymbol{\varOmega }}_C} \succeq 0, {\rm{tr}}({{\boldsymbol{\varOmega }}_C}) = 1{\rm{ }} \end{array}$$ (5)

    式中: ${\rm{tr}}( \cdot ){\rm{ = }}1$ 用于控制模型复杂度, ${{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C} \succeq 0$ 用于保证模型的凸性质。目标函数的第1项为经验损失,第2项用于控制模型整体复杂度,第3项为关系自动挖掘项用以自动挖掘样本输入特征关系与输出编码关系。

    与此同时,样本输入特征与输出编码之间亦存在潜在的耦合关系。同类样本之间存在类不变特征表示,同时人脸原始特征之间存在块相关的特性,即样本特征关系;经过回归函数 ${{\boldsymbol{W}}^{\rm{T}}}{\boldsymbol{X}} + {\boldsymbol{b}}$ 映射至CA编码空间后,这些关系将线性传递至对应编码之中。因而,作为输入输出中间桥梁的投影矩阵 ${\boldsymbol{W}}$ 蕴含某些潜在关系有待挖掘,本文称为输入输出关系。为挖掘这种关系,受文献[22-23]启发,本文在目标函数(5)的基础之上引入一个结构矩阵 ${\boldsymbol{S}}$ ,并对其施加低秩惩罚。因此,式(5)模型被重写为

    $$\begin{array}{c} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{\boldsymbol{S}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}} {\rm{ }}\dfrac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 + \dfrac{{{\lambda _2}}}{2}||{\boldsymbol{S}}||_F^2+\\ {\lambda _3}{\rm{rank}}\left( {\boldsymbol{S}} \right) + \dfrac{{{\lambda _4}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right)\\ {\rm{s.t.}}\quad {{\boldsymbol{\varOmega }}_F} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_F}) = 1\\ {\rm{ }}{{\boldsymbol{\varOmega }}_C} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_C}) = 1 \end{array}$$ (6)

    式中: $ {\lambda }_{1}{\text{、}}{\lambda }_{2}{\text{、}}{\lambda }_{3}{\text{、}}{\lambda }_{4}$ 为超参数; ${\boldsymbol{S}} \in {\bf{R}}^{K \times K}$ 代表构造的结构矩阵,用于刻画潜在的回归结构。第3项用于控制模型复杂度,第4项用于去除冗余关系,以便提取更有效的关系结构。

    鉴于引入低秩约束项 ${\rm{rank}}({\boldsymbol{S}})$ 导致目标函数(6)变成NP-hard问题[24],不利于求解。为此,本文采用核范数 ${\rm{||}}{\boldsymbol{S}}{\rm{|}}{{\rm{|}}_{\rm{*}}}$ 替换低秩函数[25],即最终CRSAE模型如下:

    $$\begin{array}{c} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{\boldsymbol{S}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}} {\rm{ }}\dfrac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 + \dfrac{{{\lambda _2}}}{2}||{\boldsymbol{S}}||_F^2+\\ {\lambda _3}{\rm{||}}{\boldsymbol{S}}{\rm{|}}{{\rm{|}}_{\rm{*}}} + \dfrac{{{\lambda _4}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right)\\ {\rm{s.t.}}\quad {{\boldsymbol{\varOmega }}_F} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_F}) = 1\\ {{\boldsymbol{\varOmega }}_C} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_C}) = 1 \end{array}$$ (7)

    值得注意的是,本文采用核范数自动去除原始特征空间传递至输出标签空间中的冗余关系。若直接对 ${\boldsymbol{W}}$ 施加低秩约束,一方面直接破坏了原本的回归结构,使得输出有效类数目小于 $K$ ,显然不合理;另一方面,由式(4)、(5)中导出,若直接加入,则扭曲了矩阵正态分布的建模假设。鉴于矩阵具有线性组合的特性,本文单独引入结构矩阵 ${\boldsymbol{S}}$ 刻画样本输入特征与输出编码关系,以避免上述问题。

    为便于求解式(7),本文基于ALM策略[26],提出一种交替优化算法。具体而言,首先引入一个辅助矩阵 ${\boldsymbol{Z}}$ 对其进行目标的等价转换,转换后的目标函数为

    $$\begin{array}{c} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{\boldsymbol{S}},{\boldsymbol{Z}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}} \dfrac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2+\\ \dfrac{{{\lambda _2}}}{2}||{\boldsymbol{S}}||_F^2 + {\lambda _3}||{\boldsymbol{Z}}|{|_ * } + \dfrac{{{\lambda _4}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right)\\ {\rm{s.t.}}\quad{{\boldsymbol{\varOmega }}_F} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_F}) = 1\\ {{\boldsymbol{\varOmega }}_C} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_C}) = 1, {\boldsymbol{S}} = {\boldsymbol{Z}} \end{array}$$ (8)

    随后,对式(8)进行拉格朗日增广,得如下形式:

    $$\begin{array}{c} \mathop {\min }\limits_{\widetilde {\boldsymbol{W}},{\boldsymbol{S}},{\boldsymbol{Z}},{{\boldsymbol{\varOmega }}_F},{{\boldsymbol{\varOmega }}_C}} \dfrac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \dfrac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 +\\ \dfrac{{{\lambda _2}}}{2}||{\boldsymbol{S}}||_F^2 + {\lambda _3}||{\boldsymbol{Z}}|{|_ * } + \dfrac{{{\lambda _4}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right) +\\ \langle {\boldsymbol{\varPhi }},{\boldsymbol{S}} - {\boldsymbol{Z}}\rangle + \dfrac{\mu }{2}||{\boldsymbol{S}} - {\boldsymbol{Z}}||_F^2\\ {\rm{s.t.}}\quad{{\boldsymbol{\varOmega }}_F} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_F}) = 1\\ {{\boldsymbol{\varOmega }}_C} \succeq 0,{\rm{tr}}({{\boldsymbol{\varOmega }}_C}) = 1 \end{array}$$ (9)

    最后,采用类似交替优化算法,优化待求解标量。

    求解 $\widetilde {\boldsymbol{W}}$ 。当固定其他四者时,式(9)可以写成:

    $$\begin{gathered} \mathcal{J} = \frac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \frac{{{\lambda _1}}}{2}||\widetilde {\boldsymbol{W}}||_F^2 +\\ \frac{{{\lambda _4}}}{2}{\rm{tr}}\left({\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\right) \end{gathered} $$ (10)

    然后计算 $\mathcal{J}$ 关于 $\widetilde {\boldsymbol{W}}$ 的梯度,并令 $\dfrac{{\partial \mathcal{J}}}{{\partial \widetilde {\boldsymbol{W}}}} = 0$

    $$\begin{gathered} \frac{{\partial \mathcal{J}}}{{\partial \widetilde {\boldsymbol{W}}}} = \frac{1}{N}\left({\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{X}}\widetilde {\boldsymbol{W}}{\boldsymbol{S}}{{\boldsymbol{S}}^{\rm{T}}} - \widetilde {\boldsymbol{X}}{{\boldsymbol{Y}}^{\rm{T}}}{\boldsymbol{S}}\right) + {\lambda _1}\widetilde {\boldsymbol{W}} + {\lambda _4}{\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1} = \\ \frac{1}{N}\widetilde {\boldsymbol{X}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}}{\boldsymbol{S}}{{\boldsymbol{S}}^{\rm{T}}} + {\lambda _1}\widetilde {\boldsymbol{W}} + {\lambda _4}{\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1} - \frac{1}{N}\widetilde {\boldsymbol{X}}{{\boldsymbol{Y}}^{\rm{T}}}{\boldsymbol{S}} \\ \end{gathered} $$ (11)

    对式(11)采用梯度下降算法更新 $\widetilde {\boldsymbol{W}}$

    $${\widetilde {\boldsymbol{W}}_{{\rm{next}}}} = \widetilde {\boldsymbol{W}} - \eta \frac{{\partial \mathcal{J}}}{{\partial \widetilde {\boldsymbol{W}}}}$$ (12)

    求解 ${\boldsymbol{S}}$ 。当固定其他四者时,式(9)可以写成:

    $$\begin{gathered} \mathcal{J} = \frac{1}{{2N}}||{\boldsymbol{Y}} - {\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}||_F^2 + \frac{{{\lambda _2}}}{2}||{\boldsymbol{S}}||_F^2 + \\ \langle {\boldsymbol{\varPhi }},{\boldsymbol{S}} - {\boldsymbol{Z}}\rangle + \frac{\mu }{2}||{\boldsymbol{S}} - {\boldsymbol{Z}}||_F^2 \\ \end{gathered} $$ (13)

    然后计算 $\mathcal{J}$ 关于 ${\boldsymbol{S}}$ 的梯度,并令 ${{\partial \mathcal{J}}/{\partial {\boldsymbol{S}}}}{\rm{ = }}0$ ,便可得到 ${\boldsymbol{S}}$ 的闭合解:

    $$\begin{gathered} \frac{{\partial \mathcal{J}}}{{\partial {\boldsymbol{S}}}} = \frac{1}{N}\left({\boldsymbol{S}}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}} - {\boldsymbol{Y}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}}\right)+ \\ {\lambda _2}{\boldsymbol{S}} + {{\boldsymbol{\varPhi }}^{\rm{T}}} + \mu ({\boldsymbol{S}} - {\boldsymbol{Z}}) = 0 \\ \end{gathered} $$ (14)
    $$\begin{gathered} \Rightarrow {\boldsymbol{S}}\left(\frac{1}{N}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}} + {\lambda _2}{{\boldsymbol{I}}_K} + \mu {{\boldsymbol{I}}_K}\right)= \\ \frac{1}{N}{\boldsymbol{Y}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}} + \mu {\boldsymbol{Z}} - {{\boldsymbol{\varPhi }}^{\rm{T}}} \end{gathered} $$ (15)
    $$\begin{gathered} \Rightarrow {\boldsymbol{S}} = \left(\frac{1}{N}{\boldsymbol{Y}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}} + \mu {\boldsymbol{Z}} - {{\boldsymbol{\varPhi }}^{\rm{T}}}\right)\Biggr(\frac{1}{N}{\widetilde {\boldsymbol{W}}^{\rm{T}}}\widetilde {\boldsymbol{X}}{\widetilde {\boldsymbol{X}}^{\rm{T}}}\widetilde {\boldsymbol{W}} + \\ {\lambda _2}{{\boldsymbol{I}}_K} + \mu {{\boldsymbol{I}}_K}{\Biggr)^{ - 1}} \end{gathered} $$ (16)

    求解 ${{\boldsymbol{\varOmega }}_C}$ 。当固定其他四者时,依据文献[16], ${{\boldsymbol{\varOmega }}_C}$ 具有闭合解:

    $${{\boldsymbol{\varOmega }}_C} = \frac{{{{\left({{\widetilde {\boldsymbol{W}}}^{\rm{T}}}{\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}\right)}^{\frac{1}{2}}}}}{{{\rm{tr}}\left({{\left({{\widetilde {\boldsymbol{W}}}^{\rm{T}}}{\boldsymbol{\varOmega }}_F^{ - 1}\widetilde {\boldsymbol{W}}\right)}^{\frac{1}{2}}}\right)}}$$ (17)

    求解 ${{\boldsymbol{\varOmega }}_F}$ 。当固定其他四者时, ${{\boldsymbol{\varOmega }}_F}$ 具有相似的闭合解形式:

    $${{\boldsymbol{\varOmega }}_F} = \frac{{{{\left(\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{{\widetilde {\boldsymbol{W}}}^{\rm{T}}}\right)}^{\frac{1}{2}}}}}{{{\rm{tr}}\left({{\left(\widetilde {\boldsymbol{W}}{\boldsymbol{\varOmega }}_C^{ - 1}{{\widetilde {\boldsymbol{W}}}^{\rm{T}}}\right)}^{\frac{1}{2}}}\right)}}$$ (18)

    求解 ${\boldsymbol{Z}}$ 。当固定其他四者时,式(9)变成:

    $$\begin{gathered} \mathcal{J} = {\lambda _3}||{\boldsymbol{Z}}|{|_ * } + \langle {\boldsymbol{\varPhi }},{\boldsymbol{S}} - {\boldsymbol{Z}}\rangle + \frac{\mu }{2}||{\boldsymbol{S}} - {\boldsymbol{Z}}||_F^2 =\\ {\lambda _3}||{\boldsymbol{Z}}|{|_ * } + \frac{\mu }{2}||{\boldsymbol{S}} - {\boldsymbol{Z}} + \frac{{\boldsymbol{\varPhi }}}{{\boldsymbol{\mu }}}||_F^2 - \frac{1}{{2\mu }}||{\boldsymbol{\varPhi }}||_F^2 \end{gathered} $$ (19)
    $${\boldsymbol{Z}} = \arg \min {\rm{ }}\frac{{{\lambda _3}}}{\mu }||{\boldsymbol{Z}}|{|_ * } + \frac{1}{2}||{\boldsymbol{Z}} - \left({\boldsymbol{S}} + \frac{{\boldsymbol{\varPhi }}}{{\boldsymbol{\mu }}}\right)||_F^2$$ (20)

    此时 ${\boldsymbol{Z}}$ 具有闭合解:

    $${{\boldsymbol{Z}}^{k + 1}} = {D_{\frac{{{\lambda _3}}}{\mu }}}\left({\boldsymbol{S}} + \frac{{\boldsymbol{\varPhi }}}{{\boldsymbol{\mu }}}\right)$$ (21)

    其中 ${D_\tau }({\boldsymbol{T}}) = {{\boldsymbol{U}}_{p \times r}}{\rm{diag}}({\{ \max (0,{\sigma _j} - \tau )\} _{1 \leqslant j \leqslant r}}){\boldsymbol{V}}_{q \times r}^{\rm{T}}$ ${\boldsymbol{T}} = {\boldsymbol{S}} + $ $ {\boldsymbol{\varPhi }}/\mu$ $\tau = {\lambda _3}{\rm{/}}\mu $ ${\boldsymbol{U}}$ ${\boldsymbol{V}}$ ${\boldsymbol{T}}$ 的SVD分解形式的第1项和第3项。

    本文用 ${{\boldsymbol{I}}_d}/d$ 初始化 ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{I}}_K}/K$ 初始化 ${{\boldsymbol{\varOmega }}_C}$ ${I_K}$ 初始化 ${\boldsymbol{S}}$ ,其中 ${{\boldsymbol{I}}_R}$ $R$ 阶单位矩阵,不断重复上述步骤直到式(9)收敛,此时 $\widetilde {\boldsymbol{W}}$ ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{\varOmega }}_C}$ ${\boldsymbol{S}}$ 即为模型最终解。综上所述,耦合关系自学习的人脸年龄估计模型求解算法如下。

    算法 CRSAE优化算法

    输入 训练样本及其标签 $\left\{ {{x_i},{y_i}} \right\}_{i = 1}^N \in {\bf{R}}^d \times \bf{R}$ ,正则化参数 $\lambda {}_{1}{\text{、}}\lambda {}_{2}{\text{、}}\lambda {}_{3}{\text{、}}\lambda {}_{4}$

    输出 拓展投影矩阵 $\widetilde {\boldsymbol{W}}$ ,行协方差矩阵 ${{\boldsymbol{\varOmega }}_C}$ ,列协方差矩阵 ${{\boldsymbol{\varOmega }}_F}$ ,结构矩阵 ${\boldsymbol{S}}$ ,辅助矩阵 ${\boldsymbol{Z}}$

    1)初始化 ${\boldsymbol{S}} = {{\boldsymbol{I}}_K}{\text{,}}{{\boldsymbol{\varOmega }}_F} ={{\boldsymbol{I}}_d}/d{\text{,}}{{\boldsymbol{\varOmega }}_C}={{\boldsymbol{I}}_K}/K{\text{,}}\mu = 1e - 6$

    2) Repeat;

    3)根据式(12),更新 $\widetilde {\boldsymbol{W}}$ ,直到式(10)收敛;

    4)根据式(16),计算 ${\boldsymbol{S}}$

    5)根据式(17),计算 ${{\boldsymbol{\varOmega }}_C}$

    6)根据式(18),计算 ${{\boldsymbol{\varOmega }}_F}$

    7)根据式(21),计算 ${\boldsymbol{Z}}$

    8) ${{\boldsymbol{\varPhi }}^{k + 1}} = {{\boldsymbol{\varPhi }}^k} + \mu ({\boldsymbol{S}} - {\boldsymbol{Z}})$

    9) ${\mu ^{k + 1}} = \min (1.1{\mu ^k},1)$

    10) 直至模型式(9)收敛。

    为进一步提升模型性能,将对提出的耦合关系自学习的人脸年龄估计模型(CRSAE)进行深度化拓展,得到Deep-CRSAE模型。具体如图2所示,本文采用VGG-16深度卷积神经网络作为基础架构,调整其最后一层全连接层的大小以适应CA编码,同时将最后原本的SoftMax函数及交叉熵损失移除,替换为CRSAE目标函数。通过这样的设置,显式的特征关系自学习约束 ${{\boldsymbol{\varOmega }}_F}$ 可以经过反向传播作用于每一层神经网络,提高深度网络的特征学习能力。同样,显式的编码关系约束 ${{\boldsymbol{\varOmega }}_C}$ 和输入输出关系约束 ${\boldsymbol{S}}$ 也可作用于每一层,获得性能更加优越的年龄回归器。

    图  2  CRSAE深度化拓展示意
    Fig.  2  Schematic diagram of Deep-CRSAE
    下载: 全尺寸图片

    为评估于第2节中提出的潜在关系自学习的人脸年龄估计模型,本文在4个广泛应用于年龄估计任务的数据集上进行了实验:FG-NET[27]、Morph I[28]、Morph II[28]和Cross-Age Celebrity Data Set(CACD)[29]

    在特征提取阶段,为估计提出模型在特征表示层面的泛化能力,本文为不同数据集采用不同的特征提取方法。在FG-NET和Morph I数据集上,提取AAM特征[30],在Morph II数据集上提取BIF特征[31],而对CACD数据集提取HoG特征[32]。然后,对于提取的样本特征,采用PCA降维算法保留95%的信息。降维后,FG-NET数据集特征维度为200维,Morph I数据集为49维度,Morph II数据集为146维度,而CACD数据集为204维。

    超参数 $ {\lambda }_{1}{\text{、}}{\lambda }_{2}{\text{、}}{\lambda }_{3}{\text{、}}{\lambda }_{4}$ 采用五折交叉验证网格搜索选取的方式在 $[{10^{ - 2}},{10^{ - 1}},{10^0},{10^1},{10^2}]$ 范围内选取。为评估模型性能,本文采用平均绝对误差(mean absolute error, MAE)进行测量,其定义如式(22)所示。其中 ${f_i}$ ${y_i}$ 分别表示第 $i$ 测试样例的预测年龄值和真实年龄值。

    $${\rm{MAE}}{\rm{ = }}\frac{1}{N}\sum\limits_{i = 1}^N {|{f_i} - {y_i}|} $$ (22)

    为验证提出模型的有效性与先进性,在线性模型对比实验中,本文采用下列相关方法进行实验对比:

    1) LSR[17]:采用one-hot编码的最小平方回归模型;

    2) caLSR[17]:采用CA编码的最小平方回归模型;

    3) CAOSR[15]:挖掘CA编码0阶关系的模型;

    4) CAADOR[15]:挖掘CA编码0阶与1阶关系的模型;

    5) AELR[16]:挖掘CA编码关系的自学习模型;

    6) CRSAE:本文提出的模型,采用CA编码,其目标函数如式(6)所示。

    而在深度模型对比实验中,本文采用以下方法进行对比:

    1) OR-CNN[8]:基于有序回归的深度架构;

    2) D2C[33]:深度累积信号对比年龄估计模型;

    3) ODFL+ODL+Cross-Entropy[9]:有序特征嵌入的深度年龄估计模型;

    4) C3AE[34]:结合LDL的紧凑深度年龄估计模型;

    5) 1CH[35]:基于有序学习的深度年龄估计模型;

    6) Deep-CRSAE:本文提出模型的深度拓展形式,具体见第2.3节。

    在线性和深度情况下,将本文提出的潜在关系自学习模型与对比方案的预测性能进行比较并结果分析。

    3.3.1   线性模型对比实验

    本部分主要展示和分析CRSAE与其他5种对比模型的实验结果,其中加粗部分表示最优结果,下划线部分表示次优结果。

    表1~4展示的实验结果,可以得到以下几点结论:1)所有AE模型的MAE值均随训练样本数量的增加而降低,说明了训练样本数量的增加有助于AE模型捕获更加精确的潜在关系;2)采用CA编码策略的LSR模型,即caLSR模型的MAE值优于采用one-hot编码策略的LSR模型。说明了相较于one-hot编码,CA编码更能有效利用面部年龄属性的先验信息,如有序性、近邻相似性;3)发掘CA编码关系的AE模型性能均优于caLSR模型。该结果验证了CA编码关系的客观存在性,并且对此关系的挖掘能够提升AE预测性能;4)在绝大多数情况下,AELR模型优于CAOSR模型及CAADOR模型。说明了尽管CAOSR模型和CAADOR模型尝试通过挖掘CA编码的0阶和1阶关系来刻画CA编码潜在关系,但是由于差分操作破坏了原始编码结构,导致整体模型鲁棒性减弱,而AELR模型通过自学习的方式,保留了CA原始编码结构,提高了AE模型的鲁棒性;5)本文提出的CRSAE取得了所有情况下的最优值。这有力地说明了CRSAE在AE任务上的有效性及先进性,同时输入特征关系、输出编码关系以及输入输出关系的挖掘利用能够提升模型的鲁泛化能力。

    表  1  在FG-NET数据集上的年龄估计结果对比(MAE±STD)
    Table  1  Comparison of age estimation results on FG-NET dataset (MAE±STD)
    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 5.843±0.246 4.943±0.070 4.825±0.176 4.823±0.192 4.816±0.083 4.770±0.102
    6 4.890±0.183 4.043±0.121 3.937±0.188 3.933±0.215 3.934±0.125 3.888±0.203
    8 4.032±0.231 3.484±0.128 3.281±0.165 3.262±0.134 3.249±0.146 3.210±0.134
    10 3.586±0.297 3.084±0.110 3.913±0.146 3.911±0.181 2.907±0.149 2.867±0.123
    12 3.215±0.157 2.816±0.121 2.672±0.172 2.665±0.155 2.667±0.162 2.660±0.157
    均值 4.3132±0.223 3.673±0.110 3.726±0.169 3.719±0.175 3.515±0.133 3.480±0.144
    表  2  在Morph I数据集上的年龄估计结果对比(MAE±STD)
    Table  2  Comparison of age estimation results on Morph I dataset (MAE±STD)
    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 7.521±0.168 7.060±0.138 6.722±0.216 6.703±0.164 6.687±0.112 6.660±0.116
    6 6.742±0.199 6.402±0.271 6.266±0.144 6.254±0.192 6.246±0.243 6.225±0.179
    8 6.217±0.233 6.090±0.151 5.890±0.181 5.879±0.152 5.882±0.154 5.869±0.109
    10 5.894±0.217 5.716±0.144 5.644±0.197 5.623±0.203 5.606±0.257 5.587±0.117
    12 5.701±0.152 5.639±0.132 5.521±0.162 5.510±0.145 5.503±0.174 5.491±0.117
    均值 6.415±0.194 6.181±0.167 6.009±0.180 5.994±0.171 5.985±0.188 5.966±0.131
    表  3  在Morph II数据集上的年龄估计结果对比(MAE±STD)
    Table  3  Comparison of age estimation results on Morph II dataset (MAE±STD)
    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 7.308±0.245 6.410±0.120 6.402±0.231 6.285±0.164 6.307±0.120 6.240±0.186
    6 6.681±0.177 5.976±0.166 5.941±0.187 5.844±0.217 5.792±0.181 5.720±0.210
    8 6.012±0.143 5.486±0.190 5.453±0.162 5.421±0.149 5.377±0.153 5.343±0.157
    10 5.824±0.136 5.302±0.203 5.289±0.211 5.233±0.159 5.215±0.126 5.150±0.141
    12 5.652±0.207 5.211±0.147 5.137±0.154 5.096±0.141 5.073±0.179 5.055±0.159
    均值 6.295±0.182 5.677±0.165 5.644±0.189 5.576±0.166 5.553±0.154 5.502±0.171
    表  4  在CACD数据集上的年龄估计结果对比(MAE±STD)
    Table  4  Comparison of age estimation results on CACD dataset (MAE±STD)
    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    5 13.025±0.237 11.576±0.155 11.566±0.271 11.491±0.228 11.418±0.286 11.308±0.277
    10 11.882±0.199 10.692±0.247 10.652±0.236 10.629±0.214 10.602±0.266 10.516±0.129
    15 11.029±0.243 10.087±0.196 10.058±0.175 9.973±0.188 10.049±0.205 9.949±0.184
    20 10.681±0.184 9.839±0.100 9.801±0.142 9.727±0.191 9.684±0.194 9.618±0.129
    25 10.517±0.166 9.660±0.115 9.591±0.157 9.575±0.176 9.587±0.130 9.460±0.213
    均值 11.427±0.206 10.372±0.162 10.334±0.196 10.279±0.199 10.252±0.216 10.170±0.186
    3.3.2   深度模型对比实验

    本文采用预训练好的VGG-16作为基础架构,并使用SGD优化器。此外,设置权重衰减为0.0005,动量为0.9,批次大小为64,初始学习率为0.001且每30轮epoch缩减为原来的10%。根据上述设置,本文使用80%的Morph II和CACD数据集进行训练,剩余样本进行测试。表5汇总了MAE对比结果。

    表  5  在Morph II与CACD数据集上基于深度架构的年龄估计对比结果(MAE)
    Table  5  Comparison of age estimation results on Morph II and CACD dataset based on deep framework (MAE)
    方法 Morph II CACD
    OR-CNN 3.342 5.428
    D2C 3.013 5.041
    ODFL+ODL+Cross-Entropy 2.971 4.952
    C3AE 3.187 5.215
    1CH 2.926 4.979
    Deep-CRSAE 2.903 4.815

    表5可以看出,相较于另外5种深度学习方法,Deep-CRSAE在AE任务上取得了更低的MAE值,从而也再一次说明了本文所提出的耦合关系挖掘策略在深度架构上依然有效,CRSAE具有优越鲁棒性和泛化性。

    本文主要探索了人脸年龄估计问题中,输入特征关系、输出编码关系以及输入输出关系对年龄估计的影响。首先,利用投影矩阵 ${\boldsymbol{W}}$ 的行列协方差矩阵 ${{\boldsymbol{\varOmega }}_F}$ ${{\boldsymbol{\varOmega }}_C} $ 对编码关系和特征关系进行建模。随后,引入一个结构矩阵 ${\boldsymbol{S}}$ 对输入输出关系进行发掘,从而构建了一种耦合关系自学习的人脸年龄估计模型(CRSAE)。然后,在原始关系挖掘策略上引入深度先验信息,对原始模型进行深度化拓展(Deep-CRSAE)。最后,在FG-NET、Morph I、Morph II和CACD这4个年龄数据集上进行了实验,验证了所提出模型的有效性和鲁棒性。

  • 图  1   耦合关系自学习的人脸年龄估计模型(CRSAE)流程

    Fig.  1   Flowchart of coupled relationships self-learning age estimation

    下载: 全尺寸图片

    图  2   CRSAE深度化拓展示意

    Fig.  2   Schematic diagram of Deep-CRSAE

    下载: 全尺寸图片

    表  1   在FG-NET数据集上的年龄估计结果对比(MAE±STD)

    Table  1   Comparison of age estimation results on FG-NET dataset (MAE±STD)

    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 5.843±0.246 4.943±0.070 4.825±0.176 4.823±0.192 4.816±0.083 4.770±0.102
    6 4.890±0.183 4.043±0.121 3.937±0.188 3.933±0.215 3.934±0.125 3.888±0.203
    8 4.032±0.231 3.484±0.128 3.281±0.165 3.262±0.134 3.249±0.146 3.210±0.134
    10 3.586±0.297 3.084±0.110 3.913±0.146 3.911±0.181 2.907±0.149 2.867±0.123
    12 3.215±0.157 2.816±0.121 2.672±0.172 2.665±0.155 2.667±0.162 2.660±0.157
    均值 4.3132±0.223 3.673±0.110 3.726±0.169 3.719±0.175 3.515±0.133 3.480±0.144

    表  2   在Morph I数据集上的年龄估计结果对比(MAE±STD)

    Table  2   Comparison of age estimation results on Morph I dataset (MAE±STD)

    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 7.521±0.168 7.060±0.138 6.722±0.216 6.703±0.164 6.687±0.112 6.660±0.116
    6 6.742±0.199 6.402±0.271 6.266±0.144 6.254±0.192 6.246±0.243 6.225±0.179
    8 6.217±0.233 6.090±0.151 5.890±0.181 5.879±0.152 5.882±0.154 5.869±0.109
    10 5.894±0.217 5.716±0.144 5.644±0.197 5.623±0.203 5.606±0.257 5.587±0.117
    12 5.701±0.152 5.639±0.132 5.521±0.162 5.510±0.145 5.503±0.174 5.491±0.117
    均值 6.415±0.194 6.181±0.167 6.009±0.180 5.994±0.171 5.985±0.188 5.966±0.131

    表  3   在Morph II数据集上的年龄估计结果对比(MAE±STD)

    Table  3   Comparison of age estimation results on Morph II dataset (MAE±STD)

    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    4 7.308±0.245 6.410±0.120 6.402±0.231 6.285±0.164 6.307±0.120 6.240±0.186
    6 6.681±0.177 5.976±0.166 5.941±0.187 5.844±0.217 5.792±0.181 5.720±0.210
    8 6.012±0.143 5.486±0.190 5.453±0.162 5.421±0.149 5.377±0.153 5.343±0.157
    10 5.824±0.136 5.302±0.203 5.289±0.211 5.233±0.159 5.215±0.126 5.150±0.141
    12 5.652±0.207 5.211±0.147 5.137±0.154 5.096±0.141 5.073±0.179 5.055±0.159
    均值 6.295±0.182 5.677±0.165 5.644±0.189 5.576±0.166 5.553±0.154 5.502±0.171

    表  4   在CACD数据集上的年龄估计结果对比(MAE±STD)

    Table  4   Comparison of age estimation results on CACD dataset (MAE±STD)

    训练样本数量 LSR caLSR CAOSR CAADOR AELR CRSAE
    5 13.025±0.237 11.576±0.155 11.566±0.271 11.491±0.228 11.418±0.286 11.308±0.277
    10 11.882±0.199 10.692±0.247 10.652±0.236 10.629±0.214 10.602±0.266 10.516±0.129
    15 11.029±0.243 10.087±0.196 10.058±0.175 9.973±0.188 10.049±0.205 9.949±0.184
    20 10.681±0.184 9.839±0.100 9.801±0.142 9.727±0.191 9.684±0.194 9.618±0.129
    25 10.517±0.166 9.660±0.115 9.591±0.157 9.575±0.176 9.587±0.130 9.460±0.213
    均值 11.427±0.206 10.372±0.162 10.334±0.196 10.279±0.199 10.252±0.216 10.170±0.186

    表  5   在Morph II与CACD数据集上基于深度架构的年龄估计对比结果(MAE)

    Table  5   Comparison of age estimation results on Morph II and CACD dataset based on deep framework (MAE)

    方法 Morph II CACD
    OR-CNN 3.342 5.428
    D2C 3.013 5.041
    ODFL+ODL+Cross-Entropy 2.971 4.952
    C3AE 3.187 5.215
    1CH 2.926 4.979
    Deep-CRSAE 2.903 4.815
  • [1] WU Yongdong, WEI Zhuo, DENG R H. Attribute-based access to scalable media in cloud-assisted content sharing networks[J]. IEEE transactions on multimedia, 2013, 15(4): 778–788. doi: 10.1109/TMM.2013.2238910
    [2] LINOFF G S, BERRY M J A. Data mining techniques: for marketing, sales, and customer relationship management[M]. 3rd ed. New York: Wiley, 2011: 45−49.
    [3] SHASHIDHAR K K, MANJAIAH D H. Electronic Customer Relationship Management (e-CRM): Data Integration for Technical Institutions[C]//2012 International Conference on Internet Computing and Information Communications.[S.1.], 2014: 169−178.
    [4] ALASHKAR T, JIANG Songyao, FU Yun. Rule-based facial makeup recommendation system[C]//Proceedings of 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). Washington, USA, 2017: 325−330.
    [5] LU Jiwen, LIONG V E, ZHOU Jie. Cost-sensitive local binary feature learning for facial age estimation[J]. IEEE transactions on image processing, 2015, 24(12): 5356–5368. doi: 10.1109/TIP.2015.2481327
    [6] LI Changsheng, LIU Qingshan, LIU Jing, et al. Learning ordinal discriminative features for age estimation[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA, 2012: 2570−2577.
    [7] TIAN Qing, ZHANG Wenqiang, WANG Liping, et al. Robust ordinal regression induced by lp-centroid[J]. Neurocomputing, 2018, 313: 184–195. doi: 10.1016/j.neucom.2018.06.041
    [8] NIU Zhenxing, ZHOU Mo, WANG Le, et al. Ordinal regression with multiple output CNN for age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 4920−4928.
    [9] LIU Hao, LU Jiwen, FENG Jianjiang, et al. Ordinal deep learning for facial age estimation[J]. IEEE transactions on circuits and systems for video technology, 2019, 29(2): 486–501. doi: 10.1109/TCSVT.2017.2782709
    [10] GENG Xin, YIN Chao, ZHOU Zhihua. Facial age estimation by learning from label distributions[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(10): 2401–2412. doi: 10.1109/TPAMI.2013.51
    [11] YANG Xu, GAO Binbin, XING Chao, et al. Deep label distribution learning for apparent age estimation[C]//2015 IEEE International Conference on Computer Vision Workshops. Santiago, Chile, 2015: 344−350.
    [12] HUO Zengwei, YANG Xu, XING Chao, et al. Deep age distribution learning for apparent age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, USA, 2016: 722−729.
    [13] GAO Binbin, ZHOU Hongyu, WU Jianxin, et al. Age Estimation Using Expectation of Label Distribution Learning[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018: 712−718.
    [14] SHEN Wei, GUO Yilu, WANG Yan, et al. Deep regression forests for age estimation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018, 2304−2313.
    [15] TIAN Qing, CHEN Songcan. Cumulative attribute relation regularization learning for human age estimation[J]. Neurocomputing, 2015, 165: 456–467. doi: 10.1016/j.neucom.2015.03.078
    [16] TIAN Qing, CAO Meng, CHEN Songcan, et al. Relationships self-learning based gender-aware age estimation[J]. Neural processing letters, 2019, 50(3): 2141–2160. doi: 10.1007/s11063-019-09993-9
    [17] CHEN Ke, GONG Shaogang, XIANG Tao, et al. Cumulative attribute space for age and crowd density estimation[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2467−2474.
    [18] BOCKLET T, MAIER A, BAUER J G, et al. Age and gender recognition for telephone applications based on gmm supervectors and support vector machines[C]//2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Las Vegas, USA, 2008: 1605−1608.
    [19] HE Yunhui. Real-Time Nonlinear facial feature extraction using cholesky decomposition and QR decomposition for face recognition[C]//2009 International Conference on Electronic Computer Technology. Macau, China, 2009: 306−310.
    [20] COATES A, NG A Y. The importance of encoding versus training with sparse coding and vector quantization[C]//Proceedings of the 28th International Conference on Machine Learning. Washington, USA, 2011: 921−928.
    [21] ZHANG Yu, YEUNG D Y. A convex formulation for learning task relationships in multi-task learning[C]//Proceddings of the Twenty-Sixth Conference on Uncertainty in Artificial Intelligence. Catalina Island, USA, 2010: 733−742.
    [22] RECHT B, FAZEL M, PARRILO P A. Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization[J]. SIAM review, 2010, 52(3): 471–501. doi: 10.1137/070697835
    [23] LIU Guangcan, LIN Zhouchen, YAN Shuicheng, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 171–184. doi: 10.1109/TPAMI.2012.88
    [24] ZHONG Xiaowei, XU Linli, LI Yitan, et al. A nonconvex relaxation approach for rank minimization problems[C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin, USA, 2015: 1980−1986.
    [25] NIE Feiping, HUANG Heng, DING C. Low-rank matrix recovery via efficient schatten p-norm minimization[C]//Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence. New York, USA, 2012: 655−661.
    [26] GAO Guangwei, YANG Jian, JING Xiaoyuan, et al. Learning robust and discriminative low-rank representations for face recognition with occlusion[J]. Pattern recognition, 2017, 66: 129–143. doi: 10.1016/j.patcog.2016.12.021
    [27] MONTILLO A, LING Haibin. Age regression from faces using random forests[C]//Proceedings of 2009 16th IEEE International Conference on Image Processing (ICIP). Cairo, Egypt, 2009: 2465−2468.
    [28] RICANEK K, TESAFAYE T. MORPH: a longitudinal image database of normal adult age-progression[C]//Proceedings of 7th International Conference on Automatic Face and Gesture Recognition (FGR06). Southampton, UK, 2006: 341−345.
    [29] CHEN B C, CHEN Chusong, HSU W H. Cross-age reference coding for age-invariant face recognition and retrieval[C]//Proceedings of 13th European Conference. Zurich, Switzerland, 2014: 768−783.
    [30] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(6): 681–685. doi: 10.1109/34.927467
    [31] GUO Guodong, MU Guowang, FU Yun, et al. Human age estimation using bio-inspired features[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 112−119.
    [32] FERNÁNDEZ C, HUERTA I, PRATI A. A comparative evaluation of regression learning algorithms for facial age estimation[C]//Proceedings of International Workshop on Face and Facial Expression Recognition from Real World Videos 2014. Stockholm, Sweden, 2014: 133−144.
    [33] LI Kai, XING Junliang, HU Weiming, et al. D2C: deep cumulatively and comparatively learning for human age estimation[J]. Pattern recognition, 2017, 66: 95–105. doi: 10.1016/j.patcog.2017.01.007
    [34] ZHANG Chao, LIU Shuaicheng, XU Xun, et al. C3AE: exploring the limits of compact model for age estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA, 2019: 12579−12588.
    [35] LIM K, SHIN N H, LEE Y Y, et al. Order learning and its application to age estimation[C]//8th International Conference on Learning Representations. Addis Ababa, Ethiopia, 2020.
WeChat 点击查看大图
图(2)  /  表(5)
出版历程
  • 收稿日期:  2021-01-16
  • 网络出版日期:  2021-06-23

目录

    /

    返回文章
    返回