«上一篇
文章快速检索     高级检索
下一篇»
  智能系统学报  2021, Vol. 16 Issue (3): 416-424  DOI: 10.11992/tis.201911028
0

引用本文  

许子微, 陈秀宏. 自步稀疏最优均值主成分分析[J]. 智能系统学报, 2021, 16(3): 416-424. DOI: 10.11992/tis.201911028.
XU Ziwei, CHEN Xiuhong. Sparse optimal mean principal component analysis based on self-paced learning[J]. CAAI Transactions on Intelligent Systems, 2021, 16(3): 416-424. DOI: 10.11992/tis.201911028.

基金项目

江苏省研究生科研与实践创新计划项目(JNKY19_074)

通信作者

许子微. E-mail:18256515269@163.com

作者简介

许子微,硕士研究生,主要研究方向为模式识别、图像处理;
陈秀宏,教授,主要研究方向为数字图像处理和模式识别、目标检测与跟踪、优化理论与方法。参与国家自然基金项目2项,主持省部级研究项目3项,省博士后基金1项。获得省部级奖1项、校级教学成果奖1项、市厅级奖6项。发表学术论文 120 余篇

文章历史

收稿日期:2019-11-19
自步稀疏最优均值主成分分析
许子微 , 陈秀宏     
江南大学 数字媒体学院,江苏 无锡 214122
摘要:主成分分析(PCA)是一种无监督降维方法。然而现有的方法没有考虑样本的差异性,且不能联合地提取样本的重要信息,从而影响了方法的性能。针对以上问题,提出自步稀疏最优均值主成分分析方法。模型以 $ {{L}_{{2,1}}}$ 范数定义损失函数,同时用 $ {L_{{\rm{2,1}}}}$ 范数约束投影矩阵作为正则化项,且将均值作为在迭代中优化的变量,这样可一致地选择重要特征,提高方法对异常值的鲁棒性;考虑到训练样本的差异性,利用自步学习机制实现训练样本由“简单”到“复杂”的学习过程,有效地降低异常值的影响。理论分析和实验结果表明,以上方法能更有效地降低异常值对分类精度的影响,提高分类精度。
关键词图像处理    主成分分析    无监督学习    数据降维    稀疏    最优均值    自步学习    人脸识别    
Sparse optimal mean principal component analysis based on self-paced learning
XU Ziwei , CHEN Xiuhong     
School of Digital Media, Jiangnan University, Wuxi 214122, China
Abstract: Principal component analysis (PCA) can be referred to as an unsupervised dimensionality reduction approach. However, the existing methods do not consider the difference of samples and cannot jointly extract important information of samples, thus affecting the performance of some methods. For the above problems, based on self-paced learning, we proposed a sparse optimal mean PCA algorithm. In our model, loss of function is defined by $ {L_{{\rm{2,1}}}}$ norm, the projection matrix is regularized by $ {L_{{\rm{2,1}}}}$ norm, and the mean value is taken as a variable to be optimized in the iteration. In this way, important features can be consistently selected, and the robustness of the method to outliers can be improved. Considering the difference in training samples, we utilized self-paced learning mechanism to complete the learning process of training samples from “simple” to “complex” so as to effectively reduce the influence of outliers. Theoretical analysis and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress, thus improving the effect of the classification.
Key words: image processing    principal component analysis    unsupervised learning    data dimension deduction    sparse    optimal mean    self-paced learning    face recognition    

降维[1]是数据分类中的一个重要问题,其目的是学习一个变换矩阵,将高维数据投影到低维子空间中,使数据在低维子空间中得到有效地分类。经典的降维方法包括主成分分析(principal component analysis, PCA)[2-3]和线性判别分析(linear discriminant analysis, LDA)[4-5],其中PCA是一种将数据信息投影到正交线性空间的无监督方法,原始PCA在对数据降维时,以平方欧氏距离来表示损失,而欧氏距离对噪声及异常值敏感。于是提出许多PCA变体来降低异常值的影响,例如 Nie等[6-7]提出非贪婪 ${L_{\rm{1}}}$ 范数最大化的鲁棒主成分分析(robust principal component analysis, RPCA),和基于 $ {L}_{{2},{1}}$ 范数的最优均值主成分分析(optimal mean robust principal component analysis, OMRPCA)来同时学习最优变换矩阵和最优均值。但通过RPCA和OMRPCA等模型得到的低维子空间的每个新特征都是高维空间中所有原始特征的线性组合,由于存在冗余特征,通常不适合分类。Zou等[8]提出了稀疏主成分分析(sparse principal component analysis, SPCA)。然而,因为在每个变换向量上施加 ${L_1}$ 范数,故SPCA不能联合地选择重要特征;Yi等[9]提出了联合稀疏主成分分析(joint sparse principal component analysis, JSPCA),利用 $ {L}_{{2},{1}}$ 范数来表示损失项和正则项,在避免异常值影响的同时能联合地选择重要特征,从而增强算法的分类精度。

以上方法的每一个样本对应一个损失值,损失值的大小决定了样本对模型的贡献,这就表明了样本之间存在差异性,而这些方法均同等地对待所有训练样本,没有考虑样本之间的差异性。受人类/动物学习过程的启发,文献[10-11]提出了自定步长(或课程) (self-pace learning, SPL)学习理论,其主要思想是以自定步长方式来实现从“简单”到“复杂”样本的训练,最终学习得到一个成熟的模型。此后,Lu等[12]提出自步课程学习(self-paced curriculum learning, SPCL)同时考虑训练前已知的先验知识和训练过程中的学习进度。Yu等[13]提出了自步学习K均值聚类(self-paced learning for k-means clustering algorithm, SPKC),将自步学习机制用于聚类方法。Hu等[14]提出自步核联合稀疏表示高光谱图像分类(kernel joint sparse representation based on self-paced learning for hyperspectral image classification, SPKJSR),将自步学习机制用于高光谱图像分类。

本文为充分考虑样本之间的差异性,利用SPL思想提出自步稀疏最优均值主成分分析(sparse optimal mean principal component analysis based on self-paced learning, SPL-OMSPCA),该模型放宽了对投影矩阵的正交约束,通过对训练样本由“简单”到“复杂”的渐进学习过程,得到最优投影矩阵和最优样本均值。该方法能更好地获得样本中重要的特征信息,避免异常值的影响,提高了算法的鲁棒性。在6个不同数据集上的实验表明,SPL-OMSPCA算法优于目前最先进的主成分分析方法。

1 相关工作

给定训练样本为 ${{X}} = [{{{x}}_1}\;{{{x}}_2}\; \cdots \;{{{x}}_n}] \in {{\bf{R}}^{m \times n}}$ ,其中 $m$ 为原始图像的空间维数, $n$ 为训练样本的个数。

1.1 PCA模型

假设训练样本 ${{X}}$ 已经中心化,即均值为零,则通常的PCA可以表示为

$ \mathop {{\rm{min}}}\limits_{{W}} ||{{X}} - {{W}}{{{W}}^{\rm{T}}}{{X}}||_F^2,{\rm{s}}.{\rm{t}}.,{{{W}}^{\rm{T}}}{{W}} = {{I}} $ (1)

式中 ${{W}}$ 为投影矩阵。该问题的最优解 ${{W}}$ 的列对应于矩阵的前 $m$ 个最大特征值对应的特征向量。

基于 ${L_{\rm{2}}}$ 范数的均值的合理性只针对传统的PCA方法,泛化能力较差,于是考虑以下最优均值PCA模型(OMPCA):

$ \mathop {\min }\limits_{{{b}},{{{W}}^{\rm{T}}}{{W}}} ||{{X}} - {{b}}{{\bf{1}}^{\rm{T}}} - {{W}}{{{W}}^{\rm{T}}}\left( {{{X}} - {{b}}{{\bf{1}}^{\rm{T}}}} \right)||_F^2 $

式中: ${{b}} \in {{\bf{R}}^m}$ 是一个待优化的变量; ${\bf{1}}$ $n$ 维全1列向量。于是,投影矩阵 ${{W}}$ 的列为矩阵 ${{XH}}{{{X}}^{\rm{T}}}$ 的前 $d$ 个最大特征值对应的特征向量,其中 ${{H}}={{I}}-\dfrac{1}{n}({{\bf{11}}}^{\rm{T}})$ ;最优均值为 ${{b}} = \dfrac{1}{n}\left( {{{X}}{\bf{1}} + {{W\alpha }}} \right),{{\alpha }} \in {{\bf{R}}^d}$ 为任意 $d$ 维列向量。

若式(1)中的投影矩阵与恢复矩阵不相同,并以 $ {{L}}_{{2},{1}}$ 范数来表示损失函数以及稀疏正则化项,则有以下联合稀疏主成分分析(JSPCA)模型:

$ \mathop {\min }\limits_{{{Q}},{{P}}} ||{{X}} - {{P}}{{{Q}}^{\rm{T}}}{{X}}|{|_{2,1}} + \lambda ||{{Q}}|{|_{2,1}} $

式中: ${{Q}} \in {{\bf{R}}^{m \times d}}$ 是投影矩阵; ${{P}} \in {{\bf{R}}^{m \times d}}$ 为恢复矩阵。

1.2 自步学习(SPL)机制

受人类/动物学习过程的启发,SPL以自定步长的方式实现从“简单样本”到“复杂样本”迭代地训练模型。其优化模型为

$\begin{split} & \min \displaystyle\sum\limits_{i = 1}^n {{v_i}} L({{{y}}_i},g({{{x}}_i},{{w}})) + \alpha \phi \left( {{w}} \right) + \displaystyle\sum\limits_{i = 1}^n {f({{{v}}_i},k)} \\ & {\rm{s}}{\rm{.t}}{\rm{.}}{v_i} \in [0,1],i = 1,2, \cdots ,n \end{split} $

式中: $\alpha $ 为稀疏正则化控制参数; $k$ 是自步学习参数;变量 ${v_i}$ 用于决定选择哪些样本参与训练模型; $L({{\bf{y}}_i},g({{{x}}_i},{{w}}))$ 是样本的损失函数,损失值的大小决定样本的难易程度; $f({v_i},k)$ 是自步正则化函数。在算法迭代过程中,模型可以根据样本难易程度,从简单的样本开始,学习到复杂的样本。自步学习机制的有效性,特别是对高度损坏的数据的鲁棒性,已经在各种计算机视觉任务中得到了验证。

2 自步稀疏最优均值主成分分析模型(SPL-OMSPCA) 2.1 模型建立

SPL-OMSPCA的基本思想是:以 $ {L}_{{2},{1}}$ 范数表示损失函数和稀疏约束,并利用自步学习方案对参与训练的样本进行选择。其中,损失函数是训练样本从低维变换空间中恢复原始数据产生的误差,且包含需优化的均值向量。于是有以下优化模型:

$ \begin{aligned} \mathop {\min }\limits_{{{v}},{{b}},{{P}},{{Q}}} \displaystyle\sum\limits_{i = 1}^n {{{{v}}_i}} ||{{{x}}_i} - {{b}} - {{P}}{{{Q}}^{\rm{T}}}\left( {{{{x}}_i} - {{b}}} \right)|{|_2} + \alpha ||{{Q}}|{|_{2,1}} +\\ \displaystyle\sum\limits_{i = 1}^n {f({{\rm{v}}_i},k)} \quad\quad\quad\quad\quad\quad\quad\\ {\rm{s}}{\rm{.t}}{\rm{.}}{{{P}}^{\rm{T}}}{{P}} = {{I}},{{{v}}_i} \in [0,1],i = 1,2, \cdots ,n \quad\quad\quad\end{aligned} $ (2)

式中: ${{{x}}_i}$ 为第 $i$ 个样本; $\alpha $ 为稀疏正则化控制参数; $k$ 为自步控制参数;变量 ${v_i}$ 用于决定选择哪些样本参与训练; ${{b}} \in {{\bf{R}}^{m \times 1}}$ 是样本均值; ${{Q}} \in {{\bf{R}}^{m \times {\rm{d}}}}$ 是投影矩阵; ${{P}} \in {{\bf{R}}^{m \times d}}$ 是恢复矩阵且服从正交约束 ${{{P}}^{\rm{T}}}{{P}} = {{I}}$ 。式(2)用损失值的大小决定样本的难易程度。

自步正则化函数 $f({v_i},k)$ 有多种形式。若 $f({v_i},k)$ = $ - \dfrac{1}{k}{v_i}$ $k$ 值较大,倾向于选择损失值较小的样本,于是在算法迭代过程中,利用一个步长参数 $\mu $ 来逐渐减小 $k$ 的值,使得越来越多的样本参与模型学习,从而实现从简单样本学习到复杂样本的过程。当 $k$ 小于一个预定义的确定值时,算法结束。

上述方法是硬性阈值权值选择方法,通过给每个样本分配二元权值 $({{{v}}_i} \in [0,1])$ 来决定是否选择样本。但异常值在所有样本中分布不均匀,所以硬性正则函数不能确定是否选择这些样本。相比于硬性阈值权值,软权值给每个样本分配0~1(包括0和1)的权值,显示了样本的潜在重要性,更好地实现了从简单样本逐步学习到复杂样本的过程。所提最终优化算法为

$ \begin{aligned} \mathop {\min }\limits_{{{v}},{{b}},{{P}},{{Q}}} \displaystyle\sum\limits_{i = 1}^n {{{{v}}_i}} ||{{{x}}_i} - {{b}} - {{P}}{{{Q}}^{\rm{T}}}\left( {{{{x}}_i} - {{b}}} \right)|{|_2} + \alpha ||{{Q}}|{|_{2,1}} + \\ \displaystyle\sum\limits_{i = 1}^n {\frac{{{\beta ^2}}}{{{v_i} + \beta k}}}\quad\quad\quad\quad\quad\quad\quad\quad \\ {\rm{s}}{\rm{.t}}{\rm{.}}{{{P}}^{\rm{T}}}{{P}} = {{I}},{v_i} \in [0,1],i = 1,2, \cdots ,n\quad\quad\quad \end{aligned} $ (3)

式中 $\beta $ 是间隔控制参数,控制0~1的模糊区间。因此软阈值权值可以通过明确样本间差异,准确选择样本,进一步避免异常值的影响。另外,这里存在一个隐形变量 $\mu $ $(\mu > {\rm{1}})$ ,用来作为自步控制参数 $k$ 减小的步长。目标函数式(3)转化为

$ \begin{aligned} \mathop {\min }\limits_{{{v}},{{b}},{{P}},{{Q}}} ||({{X}} - {{b1}^{\rm{T}}} - {{P}}{{{Q}}^{\rm{T}}}({{X}} - {{b1}^{\rm{T}}}))\sqrt {{V}} \sqrt {{D}} ||_F^2 + \\ \alpha ||\sqrt {{H}} {{Q}}||_F^2 + \displaystyle\sum\limits_{i = 1}^n {\frac{{{\beta ^2}}}{{{v_i} + \beta k}}}\quad\quad\quad\quad\quad \\ {\rm{s}}{\rm{.t}}{\rm{.}}{{{P}}^{\rm{T}}}{{P}} = {{I}},{v_i} \in [0,1],i = 1,2, \cdots ,n\quad\quad\quad \end{aligned} $ (4)

式中: ${{V}} = {\rm{diag}}({{{v}}_1},{{{v}}_2}, \cdots ,{{{v}}_n})$ ${\bf{1}}$ 是全为1的列向量;对角矩阵 ${{D}} = {\rm{diag}}({d_{11}},{d_{22}}, \cdots ,{d_{nn}})$ 的对角元素定义为

$ {d_{ii}} = \left\{ {\begin{split} &{{1 / {||{{A}} - {{P}}{{{Q}}^{\rm{T}}}{{A}}{)^i}|{|_2}}}},\quad{||{{({{A}} - {{P}}{{{Q}}^{\rm{T}}}{{A}})}^i}|{|_2} \ne 0} \\ &{1 / \delta },\quad{\text{其他}}\end{split}} \right. $ (5)

式中: ${{A}} = {{X}} - {{b1}^{\rm{T}}}$ $i(i = 1,2, \cdots ,n)$ 表示矩阵的第 $i$ 列;对角矩阵 ${{H}} = {\rm{diag}}({h_{11}},{h_{22}}, \cdots ,{h_{mm}})$ 的对角元素定义为

$ {h_{ii}} = \left\{ {\begin{split} &{{1 / {||{{{Q}}^j}|{|_2}}}},\quad{||{{{Q}}^j}|{|_2} \ne 0}\\ &{1 / \delta },\quad{\text{其他}} \end{split}} \right. $ (6)

式中: $j(j = 1,2, \cdots ,m)$ 表示矩阵的第 $j$ 行; $\delta $ 为一个很小的数。

2.2 模型求解

因为式(4)含有 ${{P}}$ ${{Q}}$ ${{b}}$ ${{v}}$ 共4个变量,直接求解非常困难,所以本文使用交替迭代求解[15]的方法,分别求得自步学习权重 ${{v}}$ 、最优投影矩阵 ${{Q}}$ 、最优均值 ${{b}}$ 以及恢复矩阵 ${{P}}$

2.2.1 固定 ${{P}}$ ${{Q}}$ ${{b}}$ 求自步学习权重 ${{v}}$

${{P}}$ ${{Q}}$ ${{b}}$ 固定时,式(4)转化为

$ \begin{split} \mathop {\min }\limits_{{{v}},{{b}},{{P}},{{Q}}} \displaystyle\sum\limits_{i = 1}^n {{{{v}}_i}} ||{{{x}}_i} - {{b}} - {{P}}{{{Q}}^{\rm{T}}}\left( {{{{x}}_i} - {{b}}} \right)|{|_2} + \displaystyle\sum\limits_{i = 1}^n {\frac{{{\beta ^2}}}{{{v_i} + \beta k}}} \\ {\rm{s}}{\rm{.t}}{\rm{.}}{{{P}}^{\rm{T}}}{{P}} = {{I}},{v_i} \in [0,1],i = 1,2, \cdots ,n \quad\quad\end{split} $

${L_i} = {\rm{||}}{{{x}}_{\rm{i}}}{\rm{ - }}{{b}}{\rm{ - }}{{P}}{{{Q}}^{\rm{T}}}\left( {{{{x}}_{\rm{i}}}{\rm{ - }}{{b}}} \right){\rm{|}}{{\rm{|}}_2}$ ,则上式可表示为

$ \begin{aligned} & \mathop {\min }\limits_{{v}} \displaystyle\sum\limits_{i = 1}^n {{v_i}} {L_i} + \displaystyle\sum\limits_{i = 1}^n {\frac{{{\beta ^2}}}{{{v_i} + \beta k}}} \\ & {\rm{s}}{\rm{.t}}{\rm{.}}{{{v}}_i} \in [0,1],i = 1,2,\cdots,n \end{aligned} $ (7)

式(7)的目标函数关于 ${{{v}}_i}$ 求偏导并令其为0得 ${{{v}}_i}$ 的解

$ {{{v}}_i} = \left\{ {\begin{split} &{\rm{1}},\quad{{L_i} \leqslant 1/{{\left( {k + 1/\beta } \right)}^2}}\\ &{\rm{0}},\quad{{L_i} \geqslant 1/{k^2}}\\ &{\beta \left( {\frac{{\rm{1}}}{\sqrt {{L_i}} }- k} \right)},\quad{\text{其他}} \end{split}}\right. $ (8)
2.2.2 固定 ${{P}}$ ${{Q}}$ ${{v}}$ 求解最优均值 ${{b}}$

当固定 ${{P}}$ ${{Q}}$ ${{v}}$ 时,式(4)转化为

$ \mathop {\min }\limits_{{b}} \left\| {({{X}} - {{b1}^{\rm{T}}} - {{P}}{{{Q}}^{\rm{T}}}({{X}} - {{b1}^{\rm{T}}}))\sqrt {{V}} \sqrt {{D}} } \right\|_F^2 $ (9)

式(9)的目标函数关于 ${{b}}$ 求偏导并令其为零,得到

$ ({{I}} - {{P}}{{{Q}}^{\rm{T}}} - {{Q}}{{{P}}^{\rm{T}}} + {{Q}}{{{Q}}^{\rm{T}}})({{b1}^{\rm{T}}} - {{X}}){{VD1}} = 0 $ (10)

${{c}} = ({{b1}^{\rm{T}}} - {{X}}){{VD1}}$ ,则式(10)转化为

$ ({{I}} - {{P}}{{{Q}}^{\rm{T}}} - {{Q}}{{{P}}^{\rm{T}}} + {{Q}}{{{Q}}^{\rm{T}}}){{c}} = 0 $ (11)

${{I}} - {{P}}{{{Q}}^{\rm{T}}} - {{Q}}{{{P}}^{\rm{T}}} + {{Q}}{{{Q}}^{\rm{T}}}$ 为非奇异的,则式(11)的解为 ${{c}} = {{0}}$ ,从而有

$ {{b}} = \frac{{{{XVD1}}}}{{{{\bf{1}}^{\rm{T}}}{{VD1}}}} $ (12)

${{I}} - {{P}}{{{Q}}^{\rm{T}}} - {{Q}}{{{P}}^{\rm{T}}} + {{Q}}{{{Q}}^{\rm{T}}}$ 为奇异的,设其奇异值分解为 ${{{E}}_{\rm{1}}}{{{W}}_{\rm{1}}}{{{U}}_{\rm{1}}}^{\rm{T}}$ , 其中 ${{{W}}_1} = {\rm{diag}}({\sigma _1},{\sigma _2}, \cdots ,{\sigma _s},0, \cdots ,0)$ , ${\sigma _1} \geqslant {\sigma _2} \geqslant \cdots \geqslant {\sigma _s} > 0$ ,则式(11)的解为

$ {{c}} = {{{U}}_{\rm{1}}}{{z}} $

其中 ${{z}} = {[0, \cdots ,0,{z_{s + 1}}, \cdots ,{z_m}]^{\rm{T}}} \in {{\bf{R}}^m}$ 为任意的。特别地,如令 ${z_{s + 1}} = 1$ ${z_{s + 2}} = \cdots = {z_m} = 0$ ,则式(11)的一个特解为 ${{{U}}_{\rm{1}}}$ 的第s+1列,即 ${{c}} = {({{{U}}_{\rm{1}}})_{{{s}} + {\rm{1}}}}$ ,从而有

$ {{b}} = \frac{{{{({{{U}}_{\rm{1}}})}_{{{s}} + {\rm{1}}}} + {{XVD1}}}}{{{{\bf{1}}^{\rm{T}}}{{VD1}}}} $ (13)
2.2.3 固定 ${{P}}$ ${{v}}$ ${{b}}$ 求解投影矩阵 ${{Q}}$

固定 ${{P}}$ ${{v}}$ ${{b}}$ 后,式(4)转化为

$ \begin{aligned} \mathop {\min }\limits_{{Q}} \left\| {({{X}} - {{b1}^{\rm{T}}} - {{P}}{{{Q}}^{\rm{T}}}({{X}} - {{b1}^{\rm{T}}}))\sqrt {{V}} \sqrt {{D}} } \right\|_F^2 + \\ \alpha ||\sqrt {{H}} {{Q}}||_F^2\quad \quad \quad \quad \quad \quad \quad \end{aligned} $ (14)

$\left( {{{X}} - {{b1}^{\rm{T}}}} \right)\sqrt {{V}} \sqrt {{D}} = {{G}}$ ,则式(14)转化为

$ \mathop {\min }\limits_{{Q}} ||{{G}} - {{P}}{{{Q}}^{\rm{T}}}{{G}}||_F^2 + \alpha ||\sqrt {{H}} {{Q}}||_F^2 $ (15)

式(15)的目标函数关于 ${{Q}}$ 求偏导,并令其为0得

$ \left( {{{G}}{{{G}}^{\rm{T}}} + \alpha {{H}}} \right){{Q}} = {{G}}{{{G}}^{\rm{T}}}{{P}} $

从而有

$ {{Q}} = {\left( {{{G}}{{{G}}^{\rm{T}}} + \alpha {{H}}} \right)^{ - 1}}{{G}}{{{G}}^{\rm{T}}}{{P}} $ (16)
2.2.4 固定 ${{Q}}$ ${{v}}$ ${{b}}$ 求解恢复矩阵 ${{P}}$

固定 ${{Q}}$ ${{v}}$ ${{b}}$ 后,式(4)转化为

$ \begin{split} \mathop {\min }\limits_{{P}} \left\|\left( {\left( {{{X}} - {{b1}^{\rm{T}}}} \right) - {{P}}{{{Q}}^{\rm{T}}}\left( {{{X}} - {{b1}^{\rm{T}}}} \right)} \right)\sqrt {{V}} \sqrt {{D}} \right\|_F^2 \\ {\rm{s.t.}}{{{P}}^{\rm{T}}}{{P}} = {{I}}\quad\quad\quad\quad\quad\quad\quad \end{split} $

或等价形式为

$ \begin{aligned} \mathop {\min }\limits_{{P}} \left\| \sqrt {{D}} \sqrt {{V}} {({{X}} - {{b1}^{\rm{T}}})^{\rm{T}}} - \sqrt {{D}} \sqrt {{V}} {({{X}} - {{b1}^{\rm{T}}})^{\rm{T}}}{{Q}}{{{P}}^{\rm{T}}}\right\|_F^2\\ {\rm{s.t.}}{{{P}}^{\rm{T}}}{{P}} = {{I}} \quad\quad\quad\quad\quad\quad\quad\quad\quad \end{aligned} $ (17)

约束条件 ${{{P}}^{\rm{T}}}{{P}} = {{I}}$ 意味着 ${{P}}$ 是列正交矩阵。设 $({{X}} - {{b1}^{\rm{T}}}){{VD}}{({{X}} - {{b1}^{\rm{T}}})^{\rm{T}}}{{Q}}$ 的奇异值分解为 ${{{E}}_2}{{{W}}_2}{{{U}}_2}^{\rm{T}}$ ,则由文献[9]中定理知,式(17)的最优解为

$ {{P}} = {{{E}}_2}{{{U}}_2^{\rm{T}}} $ (18)

以上过程不断迭代,直到收敛条件满足为止,具体算法如算法1。

算法1 SPL-OMSPCA

输入 样本 ${{X}}$ ,维度 $d$ ,参数 $k$ $\alpha$ $ \beta $ 和步长 $\mu $

输出 投影矩阵 ${{Q}}$

迭代执行以下操作,直到模型收敛:

1)通过式(8)计算 $ {{v}}$

2)通过式(12)、(13)计算 ${{b}}$

3)通过式(16)计算 ${{Q}}$

4)通过式(18)计算 ${{P}}$

5)通过式(5)计算 $ {{D}}$

6)通过式(6)计算 $ {{H}}$

7) 更新 $k$ $k = {k / \mu }$

得到投影矩阵 ${{Q}}$ 之后,运用最近邻分类器(nearest neighbor classifier, NN)进行分类:

$ c = {{\rm{argmin}} _{{c_i}}}{\left(\displaystyle\sum\limits_{j = 1}^m {{{(X_i^j - {y_j})}^2}} \right)^{1/2}} $ (19)

式中: $c$ 为测试样本 $y$ 的预测标签; ${c_i}$ 为第 $i$ 个样本的类标签。

在算法1中,主要的计算复杂度为奇异值分解和矩阵求逆,故本算法时间复杂度最高为 $O({m^3})$ ,假设算法迭代 $T$ 次,则该部分的时间复杂度为 $O(T{m^3})$ ,从而整个算法的时间复杂度为 $O(T{m^3})$

3 实验

为评估SPL-OMSPCA算法的有效性,本文将在UMIST[16]、JAFFE[17]、AR[18]、BIO[19]、COIL20[20]及MNIST[21]数据集上进行测试,每次实验独立随机,重复20次取平均识别率和标准差作为最后实验结果,并与PCA、SPCA、OMRPCA和JSPCA算法作对比。

3.1 数据集

为测试SPL-OMSPCA对异常值的鲁棒性,将UMIST数据集的每个图像随机添加 $13 \times 13$ 的块遮挡;随机抽取JAFFE数据集50%的图像添加 $13 \times 13$ 块遮挡,而对AR、BIO、COIL20和MNIST数据集随机添加10%的椒盐噪声。各数据集的具体特征如表1所示,而各数据集的部分图像如图1

表 1 不同数据集的属性及特点 Tab.1 Attributes and characteristics of different datasets
Download:
图 1 部分含噪数据集的可视化 Fig. 1 Visualization of some datasets with noise
3.2 实验结果及分析

在各数据集的每类中随机选取 $L$ 张图像作为训练样本,其余作为测试样本。图2给出了每个算法对不同数据集,在不同子空间维度上的分类精度。对UMIST、JAFFE和COIL20数据集,分别取9、10和5,则由图2(a)(b)(e)可看出,SPL-OMSPCA整体优于其他对比算法;对AR数据集,取13,由图2(c)可知,SPL-OMSPCA明显优于OMRPCA和SPCA,而略优于其他算法;对BIO和MNIST数据集,分别选取20和10,由图2(d)2(f)可以看出,由于此类数据集中的样本较为相似,当子空间维数较低时,SPL-OMSPCA与其他对比算法几乎保持一致的精度,但随着子空间维数的增加,本文算法精度持续保持平稳状态,且明显优于其他算法。表2列出了不同训练样本数下,5种算法在不同数据集上的分类精度与标准差,表中数据为子空间维数从5~100变化时,每个算法取得的最高精度,其中黑色加粗字体表示训练样本相同时,同一设置下几种算法中的最高分类精度。

Download:
图 2 不同算法在6个数据集上不同子空间维度的分类精度 Fig. 2 Classification accuracies of different algorithm in different subspace dimensions on six datasets
表 2 在6个不同噪声数据集上各种PCA算法的分类精度及其标准差 Tab.2 Average classification accuracy and standard deviation of various PCA algorithm on six data sets with different noise training samples

为进一步证明实验的合理性,选取JAFFE和COIL20数据集,L分别取10和9,子空间维度取10。SPL-OMSPCA模型中,每一次迭代中更新均值,图3展示了2个数据集从1024个特征中随机抽取的10个特征的均值变化,由图3可看出均值随迭代次数增加逐渐趋于平稳。模型考虑样本自身差异性,引入自步学习机制,利用损失值判断样本的难易程度,赋予样本软权重 ${v_i}$ ,并且放宽对投影矩阵的正交约束,以 $ {L}_{{2},{1}}$ 范数来表示损失函数和稀疏约束,由此即使对于有噪声的样本,也能极大程度地进行重构,图4展示了对于随机添加50%块噪声的JAFFE数据集,5种算法得到的部分重构图像,明显SPL-OMSPCA模型对含噪声块图像的重构更好。表3展示了迭代过程中JAFFE数据集部分样本的 ${v_i}$ 的变化情况,其中一行表示一个样本的变化。从表3可看出,随迭代次数的增加,对损失值大小的限制逐渐放宽,实现从“简单样本”到“复杂样本”的学习。此外,图5给出了算法在UMIST和JAFFE上的收敛情况,其中,训练样本数 $L$ 分别为9、10,子空间维数为100,最大迭代次数为30。由图5可见,本文所提出的算法具有收敛性。

综上所述,SPL-OMSPCA模型对噪声样本具有更高的鲁棒性,且能取得比其他算法更高的识别率。

Download:
图 3 均值变化图 Fig. 3 Graph of the mean value
Download:
图 4 不同算法对部分JAFFE数据集的重构图像 Fig. 4 Reconstructed images of partial JAFFE datasets by different algorithms
表 3 自步软权重 ${v_i}$ 在JAFFE数据集上的变化 Tab.3 Change of self-stepping soft weight ${v_i}$ on JAFFE dataset
Download:
图 5 目标函数收敛图 Fig. 5 Convergence graph of objective value
3.3 参数设置

由式(3)提出的问题可知,参数 $k$ $\beta $ 的值决定了学习过程中样本的选取,故选择合适的参数可以提升算法的分类效果。假设初始训练时最大损失为 ${L_m}$ ,由式(3)取适当的 $k$ $\beta $ 满足:

$ {L_m} = 1/{\left( {k + 1/\beta } \right)^2} $ (20)

为简化计算,令 $k = 1/\beta $ ,则有

$ k=1/{2}\sqrt{L_{m}},\quad \beta ={2}\sqrt{{{L}}_{m}} $ (21)

对步长参数 $\mu $ 和稀疏正则化控制参数 $\alpha $ 将通过实验确定,由图6可见,SPL-OMSPCA算法在不同参数组合下得到不同分类效果。具体地,UMIST数据集上 $L = 9$ 时,在 $(\alpha ,\mu ) = (0.001,1.25)$ 处可取得最高精度;JAFFE数据集上 $L = {\rm{10}}$ 时,在 $(\alpha ,\mu ) = (10,1.15)$ 处取得最高精度;AR数据集上 $L = {\rm{13}}$ 时,在 $(\alpha ,\mu ) = (0.01,1.15)$ 处取得最高精度;BIO数据集上 $L = {\rm{20}}$ 时,在 $(\alpha ,\mu ) = (1\;000,1.1)$ 时取得最高精度;COIL20数据集上 $L = {\rm{5}}$ 时, $(\alpha ,\mu ) = (1\;000,1.15)$ 时取得最高精度;MNIST数据集上 $L = {\rm{20}}$ 时,在 $(\alpha ,\mu ) = $ $(1\;000,1.15)$ 取到最高精度。

Download:
图 6 不同参数上的分类精度 Fig. 6 Classification accuracy on different parameters
4 结束语

本文提出了一种新的无监督降维算法——自步稀疏最优均值主成分分析(SPL-OMSPCA)算法。基于对样本自身差异性的考虑,引入自步学习的思想,实现样本从“简单”到“复杂”的训练,且在迭代过程中,自动更新均值,而后通过对投影矩阵添加 $ {L}_{{2},{1}}$ 范数的行稀疏约束,一致选择样本,进一步提高算法的识别精度。理论分析和实验结果都证明了SPL-OMSPCA模型的分类优势。虽然SPL-OMSPCA的性能优于其他PCA方法,但它还是一种无监督方法,不能使用类标签来提取有区别的特征,因此它还不能提取最有效的分类特征。在未来,可将之扩展到半监督分类问题。

参考文献
[1] OU Weihua, YOU Xinge, TAO Dacheng, et al. Robust face recognition via occlusion dictionary learning[J]. Pattern recognition, 2014, 47(4): 1559-1572. DOI:10.1016/j.patcog.2013.10.017 (0)
[2] WEI Lai, ZHOU Rigui, YIN Jun, et al. Latent graph-regularized inductive robust principal component analysis[J]. Knowledge-based systems, 2019, 177: 68-81. DOI:10.1016/j.knosys.2019.04.007 (0)
[3] HE Jinrong, BI Yingzhou, LIU Bin, et al. Graph-dual Laplacian principal component analysis[J]. Journal of ambient intelligence and humanized computing, 2019, 10(8): 3249-3262. DOI:10.1007/s12652-018-1096-5 (0)
[4] ZHAO Haifeng, WANG Zheng, NIE Feiping. A new formulation of linear discriminant analysis for robust dimensionality reduction[J]. IEEE transactions on knowledge and data engineering, 2018, 31(4): 629-640. DOI:10.1109/TKDE.2018.2842023 (0)
[5] 朱换荣, 郑智超, 孙怀江. 面向局部线性回归分类器的判别分析方法[J]. 智能系统学报, 2019, 14(5): 959-965.
ZHU Huanrong, ZHENG Zhichao, SUN Huaijiang. Locality-regularized linear regression classification-based discriminant analysis[J]. CAAI transactions on intelligent systems, 2019, 14(5): 959-965. (0)
[6] NIE Feiping, HUANG Heng, DING C, et al. Robust principal component analysis with non-greedy 1-norm maximization[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Catalonia, Spain, 2011: 1433−1438. (0)
[7] NIE Feiping, YUAN Jianjun, HUANG Heng. Optimal mean robust principal component analysis[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 1062−1070. (0)
[8] ZOU Hui, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2006, 15(2): 265-286. DOI:10.1198/106186006X113430 (0)
[9] YI Shuangyan, LAI Zhihui, HE Zhenyu, et al. Joint sparse principal component analysis[J]. Pattern recognition, 2017, 61: 524-536. DOI:10.1016/j.patcog.2016.08.025 (0)
[10] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. (0)
[11] KUMAR M P, PACKER B, KOLLER D. Self-paced learning for latent variable models[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2010: 1189−1197. (0)
[12] JIANG Lu, MENG Deyu, ZHAO Qian, et al. Self-paced curriculum learning[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015: 2694−2700. (0)
[13] YU Hao, WEN Guoqiu, GAN Jiangzhang, et al. Self-paced learning for K-means clustering algorithm [J]. Pattern recognition letters, 2020, 132: 69-75. DOI:10.1016/j.patrec.2018.08.028 (0)
[14] HU Sixiu, PENG Jiangtao, FU Yingxiong, et al. Kernel joint sparse representation based on self-paced learning for hyperspectral image classification[J]. Remote sensing, 2019, 11(9): 1114-1132. DOI:10.3390/rs11091114 (0)
[15] HAJINEZHAD D, SHI Qingjiang. Alternating direction method of multipliers for a class of nonconvex bilinear optimization: convergence analysis and applications[J]. Journal of global optimization, 2018, 70(1): 261-288. DOI:10.1007/s10898-017-0594-x (0)
[16] HOU Chenping, NIE Feiping, YI Dongyun, et al. Feature selection via joint embedding learning and sparse regression[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1324−1329. (0)
[17] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE transactions on pattern analysis and machine intelligence, 1999, 21(12): 1357-1362. DOI:10.1109/34.817413 (0)
[18] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation.[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210-227. (0)
[19] JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]//Proceedings of the 3rd International Conference on Audio- and Video-Based Biometric Person Authentication. Halmstad, Sweden, 2001: 90−95. (0)
[20] ZHENG Miao, BU Jiajun, CHEN C, et al. Graph regularized sparse coding for image representation[J]. IEEE transactions on image processing, 2011, 20(5): 1327-1336. DOI:10.1109/TIP.2010.2090535 (0)
[21] KUSSUL E, BAIDYK T. Improved method of handwritten digit recognition tested on MNIST database[J]. Image and vision computing, 2004, 22(12): 971-981. DOI:10.1016/j.imavis.2004.03.008 (0)