«上一篇
文章快速检索     高级检索
下一篇»
  智能系统学报  2021, Vol. 16 Issue (5): 963-970  DOI: 10.11992/tis.202105021
0

引用本文  

尹宝才, 张超辉, 胡永利, 等. 基于图嵌入的自适应多视降维方法[J]. 智能系统学报, 2021, 16(5): 963-970. DOI: 10.11992/tis.202105021.
YIN Baocai, ZHANG Chaohui, HU Yongli, et al. An adaptive multi-view dimensionality reduction method based on graph embedding[J]. CAAI Transactions on Intelligent Systems, 2021, 16(5): 963-970. DOI: 10.11992/tis.202105021.

基金项目

国家自然科学基金项目(U19B2039,61906011);北京市自然科学基金项目(4204086)

通信作者

胡永利. E-mail: huyongli@bjut.edu.cn

作者简介

尹宝才,教授,博士生导师,多媒体与智能软件技术北京市重点实验室主任,北京人工智能研究院院长,中国计算机学会人工智能与模式识别专业委员会委员,ACM 北京分会副主席。主要研究方向为多媒体技术、跨媒体智能、视频编码。主持国家973项目、国家自然科学基金重大项目、国家自然科学基金重点项目、北京市自然科学基金重点项目等10余项。发表学术论文60余篇;
张超辉,硕士研究生,主要研究方向为机器学习、数据挖掘;
胡永利,教授,博士生导师,主要研究方向为模式识别、计算机视觉、跨媒体智能和智能交通。北京市高等学校创新团队−交通大数据处理学术创新团队。主持国家自然科学基金联合基金重点项目、面上项目等10余项。发表学术论文30余篇

文章历史

收稿日期:2021-05-13
网络出版日期:2021-07-14
基于图嵌入的自适应多视降维方法
尹宝才 1,2, 张超辉 1, 胡永利 1,2, 孙艳丰 1,2, 王博岳 1,2     
1. 北京工业大学 信息学部,北京 100124;
2. 北京人工智能研究院,北京 100124
摘要:随着监控摄像头的普及和数据采集技术的快速发展,多视数据呈现出规模大、维度高和多源异构的特点,使得数据存储空间大、传输慢、算法复杂度高,造成“有数据、难利用”的困境。到目前为止,国内外在多视降维方面的研究还比较少。针对这一问题,本文提出一种基于图嵌入的自适应多视降维方法。该方法在考虑视角内降维后数据重构原始高维数据的基础上,提出自适应学习相似矩阵来探索不同视角之间降维后数据的关联关系,学习各视数据的正交投影矩阵实现多视降维任务。本文在多个数据集上对降维后的多视数据进行了聚类/识别实验验证,实验结果表明基于图嵌入的自适应多视降维方法优于其他降维方法。
关键词降维    多视数据    图嵌入    自适应学习    高维数据    相似性度量    无监督学习    表示学习    
An adaptive multi-view dimensionality reduction method based on graph embedding
YIN Baocai 1,2, ZHANG Chaohui 1, HU Yongli 1,2, SUN Yanfeng 1,2, WANG Boyue 1,2     
1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China;
2. Beijing Artificial Intelligence Institute, Beijing 100124, China
Abstract: With the popularity of surveillance cameras and the rapid development of data acquisition technology, multi-view data shows the traits of large scale, high dimension and multi-source heterogeneity, which cause large data storage, low data transmission speed and high algorithm complexity, resulting in a predicament that “there are plenty of data that are hard to use”. Up to now, few domestic and foreign researches have been done on multi-view dimensionality reduction. In order to solve this problem, this paper proposes an adaptive multi-view dimensionality reduction method based on graph embedding. In consideration of the reconstructed high-dimensional data after the view-angle dimensionality reduction, this method puts forward an adaptive similarity matrix to explore the correlation between dimension-reduced data from different perspectives and learn the orthogonal projection matrix of each perspective to achieve the multi-view dimensionality reduction task. In this paper, a clustering/recognition verification experiment is performed on the dimension-reduced multi-view data from multiple data sets. The experimental results present that the proposed method is better than other dimensionality reduction methods.
Key words: dimensionality reduction    multi-view data    graph embedding    adaptive learning    high-dimensional data    similarity measure    unsupervised learning    representation learning    

随着摄像头、传感器以及互联网技术的快速发展,人们能够越来越便捷地获取各种各样的多视数据,例如描述人的人脸、笔迹、指纹等特征,描述图像的颜色、纹理、形状等特征。多视数据能够更全面的描述目标对象,有益于克服单视数据中常见的光照、遮挡等难题,在识别[1]、聚类[2]等多视学习任务中表现出显著优势。然而,多视数据一般维度较高[3],对其进行向量化表示时容易引发“维数灾难”问题,给传统多视学习算法带来了极大的困难。降维是数据挖掘的基础和热点问题,在克服“维数灾难”的同时还能挖掘数据中的判别信息,但其很难处理多视数据。因此,如何对多视数据进行有效的降维成为一个亟待解决的问题。

多视降维方法主要分为两类:有监督多视降维方法[4]和无监督多视降维方法[5]。有监督数据降维通过标签数据学习从高维数据到低维数据的降维模型,并利用该降维模型对新高维数据进行降维。然而,互联网上大部分数据是没有标签的,对其进行人工标注不仅效率低下且需要付出高昂的成本,因此无监督多视降维方法的研究变得更为重要。无监督多视降维方法不使用数据的标签信息,挖掘数据间联系来学习数据的低维表示。截止到目前,针对多视数据的无监督降维方法的研究,国内外都刚刚起步。

典范相关分析(canonical correlation analysis, CCA)及其变体[6-7]是研究多视图数据之间线性相关的一种有效方法。具体地,判别典型相关分析(discriminative CCA, DCCA)[8]结合了CCA和线性判别分析(linear discriminative analysis, LDA)[9],从不同的角度考虑了同一类别数据之间的相关性,以提高低维子空间的判别能力。张量典型相关分析(tensor CCA, TCCA)[10]通过分析不同视图之间的协方差张量,将CCA推广到处理多视数据,但是该方法计算成本过高限制了其应用范围。偏最小二乘(partial least squares, PLS)[11]使用回归方式将不同视的数据映射到公共线性子空间。分布式频谱嵌入(distributed spectral embedding, DSE)[12]将数据平滑地嵌入到低维空间中。基于多核学习(multiple kernel learning, MKL)[13]的方法将多核学习与图嵌入结合实现降维任务。多视联合降维(multi-view dimensionality co-reduction, MDcR)[14]使用核匹配方法挖掘多个视图之间的依存关系,从而获得每视数据的低维投影。耦合块对齐算法(coupled patch alignment, CPA)[15]将样本和其跨视角下的同类近邻以及异类近邻组成局部块,平衡跨视角类内的紧密性与类间的可分离性,并扩展成多维耦合块对齐,解决了任意数量视角的共同学习问题。

综上,现有的多视降维方法存在以下主要缺点:1) 这些方法仅关注不同视数据之间的关系,而忽略同视数据内部的关系;2) 这些方法通常仅考虑降维后的数据关系,而忽略原始数据的关联关系;3) 这些方法通常将不同视数据映射到一个公共空间,当不同视原始数据的维度不同时降维结果受影响较大。针对这些问题,本文提出的基于图嵌入的自适应多视降维(MVDR-GE)方法在考虑每视内数据关联性的基础上,自适应地学习相似矩阵来探索不同视之间数据的关联关系,获得各视数据的正交投影矩阵实现多视降维任务。

1 相关工作 1.1 图嵌入降维

图嵌入降维是使降维后数据保留原始数据局部结构关系的一种降维方法。对给定的训练样本数据 ${\boldsymbol{X}}=[{\boldsymbol{x}}_1,{\boldsymbol{x}}_2, \cdots ,{\boldsymbol{x}}_N] \in {\bf{R}}^{V\times N}$ ,其中 $ V$ 代表数据的维数, $N$ 是样本个数, ${\boldsymbol{X}}$ 的低维表示为 ${\boldsymbol{Z}}=[{\boldsymbol{z}}_1, $ $ {\boldsymbol{z}}_2, \cdots ,{\boldsymbol{z}}_N] \in {\bf{R}}^{K \times N}$ ,其中 $K \ll V $ ${\boldsymbol{z}}_i$ ${\boldsymbol{x}}_i$ 的低维表示。如果两个数据点 ${\boldsymbol{x}}_i$ ${\boldsymbol{x}}_j$ 很相似,那么它们的低维表示 ${\boldsymbol{z}}_i$ ${\boldsymbol{z}}_j$ 也应该很相似。定义描述低维数据 ${\boldsymbol{z}}_i$ ${\boldsymbol{z}}_j$ 之间相似度关系的值为 $s_{ij} $ ,其构成的相似度矩阵为 ${\boldsymbol{S}}$ ,其中 $s_{ij} = - \|{\boldsymbol{x}}_i - {\boldsymbol{x}}_j\|_F^2$ 。根据相似度矩阵 ${\boldsymbol{S}}$ 定义对角度矩阵 ${\boldsymbol{D}}$ ,其对角线上的元素为相似度矩阵每行元素之和,即:

$ d_{ii} = \sum\limits_{j=1}^N s_{ij} $ (1)

定义归一化的拉普拉斯矩阵 ${{\boldsymbol{L}}} = {\boldsymbol{D}}^{-\frac{1}{2}} {\boldsymbol{S}} {\boldsymbol{D}}^{-\frac{1}{2}}$ 。则图嵌入降维模型可以表示为[16]

$\min\limits_{{\boldsymbol{P}} \in {\bf{R}}^{K \times V}}{\|{\boldsymbol{P}} {\boldsymbol{x}}_i - {\boldsymbol{P}} {\boldsymbol{x}}_j\|^2 s_{ij}} $ (2)

通过式(2)可求得高维数据 ${\boldsymbol{X}}$ 的投影矩阵 ${\boldsymbol{P}} \in K \times V$

${\boldsymbol{Z}} = {\boldsymbol{P}} {\boldsymbol{X}}$ ,式(2)可以写成图正则化表示:

$\max\limits_{{\boldsymbol{Z}} \in {\bf{R}}^{K \times N}} {\rm{tr}}({\boldsymbol{ZLZ}}^{\rm{T}}) $ (3)
1.2 自适应局部结构学习

自适应局部结构学习旨在通过度量样本之间的欧氏距离来自适应地学习样本间的相似度,从而获得样本的局部结构信息。对于每个样本 ${\boldsymbol{x}}_i$ 和样本 ${\boldsymbol{x}}_j$ $s_{ij} $ 为衡量两个样本之间相似性的值。则自适应学习相似性矩阵 ${\boldsymbol{S}}$ 可通过下面优化问题求得[17]

$\min_{{\boldsymbol{S}}} \sum\limits_{i,j=1}^N\|{\boldsymbol{x}}_i - {\boldsymbol{x}}_j\|_F^2 s_{ij}$ (4)

尽管 $s_{ij} $ 可以自适应地学习两个样本的相似度,但是式(4)不能避免 ${\boldsymbol{S}}$ 的对角线为1这种平凡解,故引入正则化约束:

$\min_{{\boldsymbol{S}}} \sum\limits_{i,j=1}^N\|{\boldsymbol{x}}_i - {\boldsymbol{x}}_j\|_F^2 s_{ij} + \|{\boldsymbol{S}}\|_F^2 $ (5)

式(5)是面向单视数据的自适应局部结构学习的公式,将其扩展到多视数据后可得:

$\min_{{\boldsymbol{S}}} \sum\limits_{m=1}^M\sum\limits_{i,j=1}^N\|{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{x}}_j^{(m)}\|_F^2 s_{ij} + \|{\boldsymbol{S}}\|_F^2 $ (6)
2 基于图嵌入的自适应多视降维

对于有 ${\boldsymbol{M}}$ 视的多视数据 $\{{\boldsymbol{X}}^{(1)} , {\boldsymbol{X}}^{(2)} ,\cdots ,{\boldsymbol{X}}^{(M)} \}$ ,每视的样本个数均为 ${\boldsymbol{N}}$ ,第 $ m$ 视的数据集 ${\boldsymbol{X}}^{(m)}$ ,其维度为 $V^{(m)} $ 。多视图嵌入降维就是学习各视的投影矩阵 ${\boldsymbol{P^{(m)}}} \in {\bf{R}}^{ K^{(m)} \times V^{(m)}}$ ,将各视原始数据 $\{{\boldsymbol{X}}^{(1)} , {\boldsymbol{X}}^{(2)} ,\cdots , {\boldsymbol{X}}^{(M)} \}$ 降维到 $\{{\boldsymbol{Z}}^{(1)}, {\boldsymbol{Z}}^{(2)},\cdots ,{\boldsymbol{Z}}^{(M)}\}$ ,降维后的维度为 $K^{(m)} $

基于模型式(3)的思路,通过多视共享相似性矩阵可以很有效地探索视与视数据间的关系,则多视图嵌入降维模型为

$\begin{array}{*{20}{l}} {\mathop {\max }\limits_{{{\boldsymbol{P}}^{({\bf{m}})}},{\boldsymbol{L}}} \displaystyle\sum\limits_{m = 1}^M {{\rm{tr}}} ({{\boldsymbol{P}}^{(m)}}{{\boldsymbol{X}}^{(m)}}{\boldsymbol{L}}{{\boldsymbol{X}}^{(m)}}^{\rm{T}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}})}\\ \quad\quad\quad{{\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}} \end{array}$ (7)

式中 ${\boldsymbol{P}}^{(m)}{\boldsymbol{P}}^{(m){\rm{T}}}={\boldsymbol{I}}$ 的目的是避免平凡解。

对式(7)进行分解,则:

$\begin{array}{*{20}{l}} {\mathop {\min }\limits_{{{\boldsymbol{P}}^{(m)}},{\boldsymbol{S}}} \displaystyle\sum\limits_{m = 1}^M {\displaystyle\sum\limits_{i,j = 1}^N {||{{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_i^{(m)} - {{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_j^{(m)}||_F^2} } {s_{ij}}}\\ \quad\quad\quad{{\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}} \end{array}$ (8)

式中 ${\boldsymbol{P}}^{(m)} \in {\bf{R}}^{ K^{(m)} \times V^{(m)} }$ 。为避免相似度矩阵 ${\boldsymbol{S}}$ 出现平凡解,同样引入对于相似度矩阵 ${\boldsymbol{S}}$ 的正则化约束,则式(8)变为

$\begin{array}{*{20}{l}} {\mathop {\min }\limits_{{{\boldsymbol{P}}^{(m)}},{\boldsymbol{S}}} \displaystyle\sum\limits_{m = 1}^M {\displaystyle\sum\limits_{i,j = 1}^N | } |{{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_i^{(m)} - {{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_j^{(m)}||_F^2{s_{ij}}}+\\ {\;\;\;\;\;\;\; \beta ||{\boldsymbol{S}}||_F^2\quad {\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}} \end{array}$ (9)

式(9)中的相似度矩阵 ${\boldsymbol{S}}$ 只关注降维后数据关联关系,忽略了原始数据间的结构关系,从而不能保证降维后的数据保留原始数据的结构。因此,引入对原始数据的约束后,则:

$\begin{array}{l} \min\limits_{ {\boldsymbol{P}}^{(m)}, {\boldsymbol{S}}} \displaystyle\sum\limits_{m=1}^M\displaystyle\sum\limits_{i,j=1}^N (\lambda_1 \|{\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_j^{(m)}\|_F^2+\\ \quad\quad\lambda_2\|{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{x}}_j^{(m)}\|_F^2) s_{ij} + \lambda_3 \|{\boldsymbol{S}}\|_F^2\\ {\quad\quad\quad {\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}}\end{array}$ (10)

式中 $\lambda_1 $ $\lambda_2 $ $\lambda_3 $ 是平衡各个模块重要性的参数。此外,为了避免降维后数据丢失信息严重,引入约束视内数据重构误差项:

$\begin{array}{*{20}{l}} {\mathop {\min }\limits_{{{\boldsymbol{P}}^{(m)}}} \displaystyle\sum\limits_{m = 1}^M {\displaystyle\sum\limits_{i = 1}^N | } |{\boldsymbol{x}}_i^{(m)} - {{\boldsymbol{P}}^{(m)}}^{\rm{T}}{{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_i^{(m)}||_F^2}\\ \quad\quad\quad\quad{{\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}} \end{array}$ (11)

式中: ${\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_i^{(m)}$ 表示把原始数据投影到低维空间; ${{\boldsymbol{P}}^{(m)}}{{{\boldsymbol{P}}^{(m)}}^{\rm{T}}} {{\boldsymbol{x}}_i^{(m)}}$ 表示将投影到低维空间的数据再投影回原始空间。将式(10)与式(11)结合得到最终的目标函数:

$\begin{array}{*{20}{l}} \quad{\mathop {\min }\limits_{{{\boldsymbol{P}}^{({\bf{m}})}},{\boldsymbol{S}}} \displaystyle\sum\limits_{m = 1}^M {\displaystyle\sum\limits_{i = 1}^N {||{\boldsymbol{x}}_i^{(m)} - {{\boldsymbol{P}}^{(m)}}^{\rm{T}}{{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_i^{(m)}||_F^2} } } +\\ {\;\;\;\;\;\;\; \displaystyle\sum\limits_{i,j = 1}^N ( {\lambda _1}||{{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_i^{(m)} - {{\boldsymbol{P}}^{(m)}}{\boldsymbol{x}}_j^{(m)}||_F^2}+\\ {\;\;\;\;\;\;\; {\lambda _2}||{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{x}}_j^{(m)}||_F^2){s_{ij}} + {\lambda _3}||{\boldsymbol{S}}||_F^2}\\ \quad\quad\quad{{\rm{s}}.{\rm{t}}.\quad {{\boldsymbol{P}}^{(m)}}{{\boldsymbol{P}}^{(m)}}^{\rm{T}} = {\boldsymbol{I}}} \end{array}$ (12)
3 算法优化

目标函数式(12)是典型非凸优化问题,本文通过迭代更新的方法,求解 ${\boldsymbol{P}}^{(m)}$ ${\boldsymbol{S}}$

3.1 固定 ${\boldsymbol{S}}$ 更新 ${\boldsymbol{P}}^{(m)}$

当固定相似度矩阵 ${\boldsymbol{S}}$ 不变时,目标函数式(12)中的 $\|{\boldsymbol{S}}\|_F^2$ $(||{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{x}}_j^{(m)}||_F^2){s_{ij}}$ 固定不变,对剩余项构建拉格朗日函数后得:

$\begin{array}{l} ({\boldsymbol{X}}^{(m)}{\boldsymbol{X}}^{(m){\rm{T}}} +\lambda_1{\boldsymbol{X}}^{(m)}{\boldsymbol{L}}{\boldsymbol{X}}^{(m){\rm{T}}}){\boldsymbol{P}}^{(m)} ={\boldsymbol{P^{(m)}}}\varLambda \end{array}$ (13)

通过特征值分解得方法,可以求得投影矩阵 ${\boldsymbol{P}} ^ {(m)}$ 并可指定其目标维度。

3.2 固定 ${\boldsymbol{P}}^{(m)}$ 更新 ${\boldsymbol{S}}$

当固定投影矩阵 ${\boldsymbol{P}}^{(m)}$ 时,重构误差项不参与更新,目标函数式(12)变为

$\begin{array}{l} \min\limits_{{\boldsymbol{S}}} \displaystyle\sum\limits_{m=1}^M \displaystyle\sum\limits_{i,j=1}^N (\lambda_1\|{\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_i^{(m)}- {\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_j^{(m)}\|_F^2+\\ \quad\quad \lambda_2 \|{\boldsymbol{x}}_i^{(m)} - {\boldsymbol{x}}_j^{(m)}\|_F^2) s_{ij} + \lambda_3 \|{\boldsymbol{S}} \|_F^2 \\ \quad\quad\quad\quad{\rm{s.t.}} \quad {\boldsymbol{P}}^{(m)}{\boldsymbol{P}}^{(m){\rm{T}}}={\boldsymbol{I}} \end{array}$ (14)

将式(14)中的低维数据和原始数据之间的距离设为 $d_{ij} $

$\begin{array}{l} d_{ij}= \displaystyle\sum\limits_{m=1}^M \lambda_1 \|{\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_i^{(m)}-{\boldsymbol{P}}^{(m)}{\boldsymbol{x}}_j^{(m)}\|_F^2+\\ \quad\quad\quad\quad \lambda_2 \|{\boldsymbol{x}}_i^{(m)}-{\boldsymbol{x}}_j^{(m)}\|_F^2 \end{array}$ (15)

则式(14)可简化为

$\begin{array}{l} \min\limits_{\boldsymbol{S}} \displaystyle\sum\limits_{m=1}^M\left(\displaystyle\sum\limits_{i,j=1}^N {d_{ij} s_{ij}} + \lambda_3\|{\boldsymbol{S}}\|_F^2\right)\\ \quad\quad{\rm{s.t.}} \quad {\boldsymbol{P}}^{(m)} {\boldsymbol{P}}^{(m){\rm{T}}}={\boldsymbol{I}} \end{array}$ (16)

将式(16)变换为最小二乘形式:

$\begin{array}{l} \min\limits_{\boldsymbol{S}} \displaystyle\sum\limits_{m=1}^{M}\displaystyle\sum\limits_{i=1}^{N}\|{\boldsymbol{s}}_i+\frac{{\boldsymbol{d}}_i}{2\lambda_3}\|_2^2\\ \quad{\rm{s.t.}} \quad {\boldsymbol{P}}^{(m)}{\boldsymbol{P}}^{(m){\rm{T}}}={\boldsymbol{I}} \end{array}$ (17)

从而获得闭合解 ${\boldsymbol{s}}_i=(-\dfrac{{\bf{d}}_i}{2\beta})$

综上所述,通过不断的迭代更新,最终得到各视的投影矩阵 ${\boldsymbol{P}}^{(m)}$ ,实现多视降维任务。

该模型的算法如下:

算法1 基于图嵌入的自适应多视降维方法(MVDR-GE)。

输入 多视数据 $\{{\boldsymbol{X}}^{(1)},{\boldsymbol{X}}^{(2)},\cdots,{\boldsymbol{X}}^{(M)}\}$ ;每视维度降至 $\{{\boldsymbol{K}}^{(1)},{\boldsymbol{K}}^{(2)},\cdots,{\boldsymbol{K}}^{(M)}\} $ ;参数 ${\lambda _1} $ ${\lambda _2} $ ${\lambda _3} $

1) 初始化 $S = \displaystyle\sum\limits_{m - 1}^M {{X^{(m){\rm{T}}}}{X^{(m)}}};$

2) 当不满足收敛条件时:

  For m=1:M

  根据式(13)计算各式投影矩阵 ${\boldsymbol{P}}^{(m)}$

  End for

  根据式(17)计算相似度矩阵 ${\boldsymbol{S}} $

End

输出 各视降维矩阵 $\{{\boldsymbol{P}}^{(1)},{\boldsymbol{P}}^{(2)},\cdots,{\boldsymbol{P}}^{(M)}\} $

4 实验及结果分析

为了验证本文所提出的多视降维方法的有效性,在多个公开数据集上进行了验证实验。

4.1 数据集描述

IXMAS[18]数据集是由5个不同视角拍摄的视频组成的多视视频数据集,包含10个人的11种日常行为:看手表、抱胳膊、抓头、坐下、起来、转身、走、挥手、拳击、踢、捡。本文为每个视角提取177维视频特征。

ORL数据集由40个人、每人10幅不同的人脸照片构成。每个人拍摄照片的时间不同,光照和面部表情不同,本文调整图像大小为64×64,并提取图像的光照强度(intensity)、局部二值模式(local binary pattern, LBP)[19]和Gabor[19]特征构造多视数据,维度分别是4 096、3 304和6 750。

PIE数据集包含从68个人中采集的共1 428张人脸图像,该数据集提取特征的方法跟ORL数据集相同。

MSRCV1[21]数据集包含240张图片,这些图片属于9个类别,本文实验选取其中的树、建筑物、飞机、牛、人脸、汽车和自行车等7个类别共210张图片。分别提取每张图片的CENT(1 302维)、COLOR(48维)、GIST(512维)、LBP(256维)4种特征作为此数据集的多视数据。

Notting-Hill[22]诺丁山数据集来源于电影《诺丁山》,收集了5个角色的多张人脸照片。本文调整图像大小为64×64并提取跟ORL数据集相同的特征,维度分别为2 000、3 304和6 750。

4.2 实验及结果

为了验证方法的有效性,与以下几个经典降维方法做了实验结果对比。

主成分分析(principal component analysis, PCA)[23]:该方法是经典的无监督线性降维方法,通过将原始数据投影到线性子空间中对数据进行降维。

朴素多视降维(naive multi-view dimension reduction, NaMDR)[14]:此方法独立地减小了每个视图的维度,而没有约束不同的视图。

多视联合降维(multi-view dimensionality co-reduction, MDcR)[14]:该方法利用核匹配方法挖掘多个视图之间的依存关系,并获得每视数据的低维投影。

对于不同的数据集,特征的维数也不相同,本文统一将数据的目标特征维度设置为10维。为了进一步验证多视学习的有效性,本文对比了不同单视数据的最好性能和多视联合的性能,其中不同单视数据的最好性能在表格中用single表示,多视联合的性能在表格中用multiple表示。具体地说,在得到降维数据后,本文进行了聚类/识别实验从而间接对降维性能进行了评估。全部实验是在Window 10、64位操作系统、Inter Corei5-6500 3.20 GHz和20 G RAM的工作站上实现的,软件环境为Matlab 2018a。

4.2.1 聚类实验

在聚类实验中,采用3个评价指标度量聚类性能:准确性(accuracy, ACC)、归一化互信息(normalized mutual information, NMI)和纯度(Purity)。这些指标越高代表聚类表现越好。在获得不同降维方法的降维数据后,本文使用自动加权多图(auto-weighted multi-view learning, AMGL)[23]聚类方法对其进行聚类。由于此方法最后一步是执行K-means操作,所以本文进行30次实验取均值和标准差作为最终的实验结果。最后的实验结果为平均值±标准差的形式。本文在IXMAS、PIE、Notting-Hill 3个数据集上进行了聚类实验,实验结果如表1~3所示。

本文用加粗的字体表示最好的实验结果。从表1~3中可以看出,本文提出的多视降维方法无论在单视特征还是多视特征上都取得了最好的聚类表现。其他降维方法在ACC、NMI和Purity指标上,都不能取得一个令人满意的结果。由于本文提出的多视降维方法利用一个融合多视数据相似度的矩阵去辅助生成投影矩阵,使得用投影矩阵和原始数据运算得到的每视的低维数据能够融合其他视数据的信息,并且本文不同视数据的相似度矩阵 ${\boldsymbol{S}} $ 是自适应学习得到的,所以在拥有很强的灵活性的同时又能保证多视数据相互融合之后的低维数据具有代表高维数据的判别性信息,最终对多视低维数据进行聚类时获得一个令人满意的表现。同时,对比单视低维数据聚类也能获得最好的结果,表明本文提出的多视降维方法已经很好地融合了多视数据。

表 1 IXMAS数据集聚类实验结果 Tab.1 Clustering experiment results of IXMAS dataset
表 2 PIE数据集聚类实验结果 Tab.2 Clustering experiment results of PIE dataset
表 3 Notting-Hill数据集聚类实验结果 Tab.3 Clustering experiment results of Notting-Hill dataset
4.2.2 识别实验

本文在ORL、Notting-Hill和MSRCV1数据集上进行了识别实验,采用最近邻分类器作为识别方法,采用识别准确度作为评价指标。由于在Notting-Hill和MSRCV1数据集上每类的样本不相同,本文从每类所有的样本中选取了M个样本进行训练,记作Gm,其余的样本进行测试。本文实验设置为随机选取30次训练集进行训练和测试,并报告平均识别结果。最后的实验结果为平均值±标准差的形式。

实验结果如表4~6所示,本文提出的方法在绝大多数情况上获得了最好的识别效果。由于本文提出的多视降维方法能够很好地融合多视数据的特征,使得降维后的低维数据能充分表示高维数据且具有更强的判别性,因此本文的方法能在识别实验中得到一个比较高的准确度,这也验证了本文的方法相较于其他对比方法,能够更好地对不同视角数据进行融合,使降维后的低维数据更有利于进行识别。在ORL人脸数据集和Notting-Hill数据集上,本文提出的方法虽然在单视数据和多视数据上均获得最好的实验结果,单视实验结果整体略优于多视实验结果,其他方法也同样出现了该问题。这一现象的原因在于两个数据集提取的LBP特征能够很好地反应图像的特征,在拼接多视数据进行识别时,本文选用的识别方法不能很好地融合多视数据进行识别。

表 4 ORL数据集识别实验结果 Tab.4 Recognition experiment results of ORL dataset
表 5 Notting-Hill数据集识别实验结果 Tab.5 Recognition experiment results of Notting-Hill dataset
表 6 MSRCV1数据集识别实验结果 Tab.6 Recognition experiment results of MSRCV1 dataset
5 结束语

本文提出了一种基于图嵌入的自适应多视降维方法。通过图嵌入的方法能够将高维数据嵌入到一个低维的子空间,并使得到的低维数据能够具有高维数据的特点。通过自适应学习一个多视数据共享的相似性矩阵,能够对不同视的数据在降维的过程中进行融合,使得降维后的每个视之间的数据都包含其它视特征的信息。实验结果证明,本文提出的方法在多视数据降维的同时能够促进多视数据的融合,并且能够提高后续聚类/识别任务的实验效果。虽然本文提出的方法能获得了令人满意的多视降维表现,但降维过程比较耗时,今后的研究将致力于如何降低算法的复杂度。

参考文献
[1] SHARIF M, MOHSIN S, JAVED M Y. A survey: face recognition techniques[J]. Research journal of applied sciences, engineering and technology, 2012, 4(23): 4979−4990. (0)
[2] CHALLA A, DANDA S, SAGAR B S D, et al. Power spectral clustering[J]. Journal of mathematical imaging and vision, 2020, 62(9): 1195−1213. (0)
[3] DONOHO D L. High-dimensional data analysis: the curses and blessings of dimensionality[J]. AMS math challenges lecture, 2000, 1: 32. (0)
[4] YAN Yan, RICCI E, SUBRAMANIAN R, et al. Multitask linear discriminant analysis for view invariant action recognition[J]. IEEE transactions on image processing, 2014, 23(12): 5599−5611. (0)
[5] SUN Yaoqi, LI Liang, ZHENG Liang, et al. Image classification base on PCA of multi-view deep representation[J]. Journal of visual communication and image representation, 2019, 62: 253−258. (0)
[6] BLASCHKO M B, LAMPERT C H. Correlational spectral clustering[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1−8. (0)
[7] ZHANG Yanyan, ZHANG Jianchun, Pan Zhisong, et al. Multi-view dimensionality reduction via canonical random correlation analysis[J]. Frontiers of computer science, 2016, 10(5): 856−869. (0)
[8] SUN Tingkai, CHEN Songcan, Yang Jingyu, et al. A novel method of combined feature extraction for recognition[C]//2008 Eighth IEEE International Conference on Data Mining. Pisa, Italy, 2008: 1043−1048. (0)
[9] 杨健, 杨静宇, 叶晖. Fisher线性鉴别分析的理论研究及其应用[J]. 自动化学报, 2003, 29(4): 481−493.YANG Jian, YANG Jingyu, YE Hui. Theory of Fisher linear discriminant analysis and its application[J]. Acta automatica sinica, 2003, 29(4): 481−493. (0)
[10] LUO Yong, TAO Dacheng, RAMAMOHANARAO K, et al. Tensor canonical correlation analysis for multi-view dimension reduction[J]. IEEE transactions on knowledge and data engineering, 2015, 27(11): 3111−3124. (0)
[11] SHARMA A, JACOBS D W. Bypassing synthesis: PLS for face recognition with pose, low-resolution and sketch[C]//CVPR 2011. Colorado Springs, USA, 2011: 593−600. (0)
[12] XIA Tian, TAO Dacheng, MEI Tao, et al. Multiview spectral embedding[J]. IEEE transactions on systems, man, and cybernetics, part B (cybernetics), 2010, 40(6): 1438−1446. (0)
[13] LIN Y Y, LIU T L, FUH C S. Multiple kernel learning for dimensionality reduction[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(6): 1147−1160. (0)
[14] ZHANG Changqing, FU Huazhu, HU Qinghua, et al. Flexible multi-view dimensionality co-reduction[J]. IEEE transactions on image processing, 2017, 26(2): 648−659. (0)
[15] BEN X, GONG C, ZHANG P, et al. Coupled patch alignment for matching cross-view gaits[J]. IEEE transactions on image processing, 2019, 28(6): 3142−3157. (0)
[16] NIE Feiping, CAI Guohao, LI Xuelong. Multi-view clustering and semi-supervised classification with adaptive neighbours[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 2408−2414. (0)
[17] WEINLAND D, RONFARD R, BOYER E. Free viewpoint action recognition using motion history volumes[J]. Computer vision and image understanding, 2006, 104(2/3): 249−257. (0)
[18] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE transactions on pattern analysis and machine intelligence, 2002, 24(7): 971−987. (0)
[19] LADES M, VORBRUGGEN J C, BUHMANN J, et al. Distortion invariant object recognition in the dynamic link architecture[J]. IEEE transactions on computers, 1993, 42(3): 300−311. (0)
[20] WINN J, JOJIC N. Locus: learning object classes with unsupervised segmentation[C]//Tenth IEEE International Conference on Computer Vision. Beijing, China, 2005: 756−763. (0)
[21] WU Baoyuan, ZHANG Yifan, HU Baogang, et al. Constrained clustering and its application to face clustering in videos[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3507−3514. (0)
[22] ABDI H, WILLIAMS L J. Principal component analysis[J]. WIREs: computational statistics, 2010, 2(4): 433−459. (0)
[23] NIE Feiping, CAI Guohao, LI Jing, et al. Auto-weighted multi-view learning for image clustering and semi-supervised classification[J]. IEEE transactions on image processing, 2018, 27(3): 1501−1511. (0)
[24] YAN Shuicheng, XU Dong, ZHANG Benyu, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(1): 40−51. (0)