Transformable operator-valued kernels driven by multi-label datasets
-
摘要:
算子值核是取值为希尔伯特空间上算子的二元函数,在机器学习领域中旨在更好地描述多任务学习中不同任务之间的关联性。多标记学习是一种特殊的多任务学习,本文基于核对齐方法从多标记数据集中学习算子值核并构建多标记学习的预测模型。1)利用核对齐方法学习样例级特征重要度分布;2)基于样例级特征重要度分布构造算子值核,证明其不仅是偏迹核而且是可变换算子值核,且其对应核矩阵中的每个分块刻画了样例间标记相关性的交互信息;3)设计基于可变换算子值核的多标记学习算法,在9个多标记数据集上与4种高性能算法进行对比实验,结果验证了所提算法的有效性。
Abstract:An operator-valued kernel is a binary function that takes the value of an operator on Hilbert space, which in the field of machine learning aims to better describe the correlation between different tasks in multi-task learning. Multi-label learning is a special kind of multi-task learning, in this paper, we learn operator-valued kernels from multi-label datasets based on the kernel alignment method and construct a prediction model for multi-label learning. Firstly, we use kernel alignment method to learn the instance-level feature importance distribution; secondly, we construct operator-valued kernel based on the instance-level feature importance distribution, and prove that it is not only partial trace kernel but also transformable operator-valued kernel, and that each block of its corresponding kernel matrix depicts the interaction information of label correlation among the samples; lastly, we design the multi-label learning algorithms based on transformable operator-valued kernel, and conduct comparative experiments with four high-performance algorithms on nine multi-label datasets, the results verify effectiveness of our proposed algorithm.
-
算子值核[1-12]作为数值核的扩展,其取值为希尔伯特空间上的算子。在机器学习领域,引入算子值核旨在更好地描述多任务学习中不同任务之间的关联性。在多标记学习[13-22]这一特定的多任务学习场景中,这种关联性可以细化为样例之间标记相关性[23]的交互信息,这种交互信息往往与特定的数据集密切相关。因此,从多标记数据集中学习出能够准确描述样例之间标记相关性交互信息的算子值核具有重要的理论意义和应用价值。
算子值核最早是由Micchelli等[1]引入机器学习领域的,目前其在机器学习领域内的研究主要围绕理论与应用两个方向展开。在基础理论层面,Kadri等[2]讨论了算子值核的有限维线性组合的学习问题。与此同时,Kadri等[3]将监督学习中泛函学习问题转化为再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)中函数值的设置问题,实现了算子值核理论体系与学习范式的统一。Huusari等[4]在偏迹核的框架下对已知算子值核进行了系统的分类,将其分为可分核、可变换核和纠缠核,这一分类为后续研究提供了理论基准。Dinuzzo等[5]首先提出了可分离核的学习方法,并且利用学习到的可分离核来解决希尔伯特空间上向量值函数的正则化问题[6]。Alvarez等[7]介绍了两类用于向量值函数的通用核,分别是可分离核和不可分离核。Lim等[8]结合可分离核和可变换核,在知识发现领域引入了一种基于算子值核的自回归向量模型,并用于识别动态系统和检索代表其组件之间相互作用的目标网络。Gregorová等[9]学习了可分离核的和,并提出了一种适应非线性预测函数的学习方法。Audiffren等[10]考虑了在线学习环境中向量值函数的学习问题,设计了基于算子值核的在线学习框架。值得关注的是,算子值核在多任务学习中的应用价值日益凸显:Minh等[11]给出了算子值核在向量值流形正则化和协正则化多视图学习中的应用。Huusari等[12]在多视图学习中介绍并学习一类新的可分离算子值核,该算子值核被用来刻画学习视图内和视图间之间的度量,以此来捕捉数据的多模态结构。
多标记学习旨在构建统一模型同时对多个标记进行类别预测,而多任务学习则是构建统一模型同时处理多个相关任务,如分类和回归问题,因而多标记学习是一种特殊的多任务学习。截至目前算子值核还未应用到多标记学习中。如果考虑在多标记学习中应用算子值核,那么算子值核所取值的矩阵应该能够描述样例之间标记相关性的交互信息。为了实现这一目标,本文从多标记数据集中学习可变换算子值核,并设计了有效的多标记学习算法。主要贡献如下:基于核对齐[24]方法计算样例级特征重要度分布,从而构造算子值核,以刻画样例之间标记相关性的交互信息,并证明该多标记数据驱动[25-27]的算子值核不但是偏迹核而且是可变换核;设计基于该核的多标记学习算法,并通过实验验证其性能优势。
1. 预备知识
多标记分类问题是机器学习中典型的监督学习问题,其中任意样例均同时被高维输入变量与多重标记变量所描述。
假设$ {\boldsymbol{X}} $是输入空间(即特征空间),$ {\boldsymbol{Y}} $是输出空间(即标记空间)。给定多标记数据集$ \boldsymbol{D}= \left\{\left({\boldsymbol x}_{1}, {\boldsymbol y}_{1}\right), \left({\boldsymbol x}_{2}, {\boldsymbol y}_{2}\right), \cdots , \left({\boldsymbol x}_{{n}}, {\boldsymbol y}_{{n}}\right)\right\} $。对任意多标记样例,输入向量$ {{\boldsymbol{x}}}_{i}={\left({{x}}_{{i}}^{1}, {{x}}_{{i}}^{2}, \cdots , {{x}}_{{i}}^{{m}}\right)}^{{\rm T}}\in {\boldsymbol{X}}, {i}=1, 2,\cdots , {n} $由特征集合$ {\boldsymbol{A}}=\left\{{{\boldsymbol{a}}}_{1}, {{\boldsymbol{a}}}_{2}, \cdots , {{\boldsymbol{a}}}_{{m}}\right\} $特征所表示,其中$ {m} $为特征个数。输出向量$ {{\boldsymbol{y}}}_{i}={\left({{y}}_{{i}}^{1}, {{y}}_{{i}}^{2}, \cdots , {{y}}_{i}^{N}\right)}^{{\rm T}}\in {\boldsymbol{Y}}, {i}=1,2, \cdots , {n} $被标记集合$ {\boldsymbol{L}}=\left\{{{\boldsymbol{l}}}_{1}, {{\boldsymbol{l}}}_{2}, \cdots , {{\boldsymbol{l}}}_{{N}}\right\} $中标记变量所描述,其中$ {N} $表示标记个数。任意样例在给定标记下可能输出值为+1或−1,其中+1代表样例具有该标记,−1表示样例不具有该标记。
为评估多标记算法在多标记分类任务中的性能,通常选择以下5个常用的评估指标[28-29]。
1) Hamming Loss (HL)计算公式为
$$ {\text{HL}}\left( f \right) = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{\left| {{{\boldsymbol{Y}}_i}\Delta {{\boldsymbol{Z}}_i}} \right|}}{s}} $$ 式中:$ {{\boldsymbol{Y}}_{{i}}} $表示样例中真实的标记集合,$ {{\boldsymbol{Z}}_{{i}}} $表示样例中预测标记的集合,$ \Delta $表示两个集合的对称差,$ {f} $为函数,$ {s} $为标记的个数和$ {n} $为训练样例的个数。HL用来评估一个样例被错分的次数,该值越小,说明算法的性能越好。
2) One-error (OE) 计算公式为
$$ {\text{OE}}\left( {f} \right) = \frac{1}{{n} }\sum\limits_{{i} = 1}^{n} {G} \left( {\left( {{{\mathrm{arg}}}\mathop {{{\mathrm{max}}}}\limits_{{\boldsymbol{y}} \in {\boldsymbol{Y}}} } \right){f} \left( {{{\boldsymbol{x}}_i},{\boldsymbol{y}}} \right) \notin {{\boldsymbol{Y}}_{i} }} \right) $$ 其中
$$ G(l)= \begin{cases}0, & l \text { 为真 } \\ 1, & l \text { 为假 }\end{cases} $$ 式中:$ {n} $为训练样例的个数,$ {{\boldsymbol{Y}}_{i}} $为样例中真实的标记集合,$ G $为示性函数,$ {f} $为函数。OE用来评估在输出结果中排序第一的标记不属于真实标记集合的概率,即预测出的最相关标记实际上是样例无关标记的比例。该值越小,说明算法的性能越好。
3) Coverage (CV) 计算公式为
$$ {{\mathrm{CV}}}\left({f}\right)=\frac{1}{{n}}{\displaystyle \sum _{{i=}1}^{{n}}\underset{{\boldsymbol{y}}\in {{\boldsymbol{Y}}}_{{i}}}{{\max}}}\;{{ {\mathrm{rank}}}}_{{f}}\left({{\boldsymbol{x}}}_{{i}},{\boldsymbol{y}}\right)-1 $$ 式中:$ {n} $为训练样例的个数;CV表示在标记排序中要覆盖所有相关标记需要搜索的深度,该值越小,说明算法的性能越好。
4) Ranking Loss (RL) 计算公式为
$$ {\text{RL}}\left( f \right) = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{1}{{\left| {{{{\boldsymbol{Y}}}_i}\Delta {{{\overline {\boldsymbol{Y}}}}_i}} \right|}}} $$ 式中:$ {n} $为训练样例的个数,$ \overline {\boldsymbol{Y}} $是$ {{\boldsymbol{Y}}_{\text{i}}} $相对于所有类别标记集合$ {\boldsymbol{Y}} $的补集。RL表示有多少不相关标记排序高于相关标记,即该评价指标衡量的是排序出现错误时相关和不相关标记的比例。该值越小,说明算法的性能越好。
5) Average precision (AVP) 计算公式为
$$ \begin{gathered} I_{{{\mathrm{AVP}}}} = \\ \frac{1}{{n}}{\displaystyle \sum _{{i}=1}^{{n}}\frac{1}{\left|{{\boldsymbol{Y}}}_{{i}}\right|}}{\displaystyle \sum _{{\boldsymbol{y}}\in {\boldsymbol{Y}}}\frac{\left|\left({\boldsymbol{y}}|{{\rm{ran}}}{{{\mathrm{k}}}}_{{f}}\left({{\boldsymbol{x}}}_{{i}},{\boldsymbol{y}}\right) \leqslant {{\rm{ran}}}{{{\mathrm{k}}}}_{{f}}\left({{\boldsymbol{x}}}_{{i}},\overline{{\boldsymbol{y}}}\right)\right),{\boldsymbol{y}}\in {{\boldsymbol{Y}}}_{{i}}\right|}{{{\rm{ran}}}{{{\mathrm{k}}}}_{{f}}\left({{\boldsymbol{x}}}_{{i}},\overline{{\boldsymbol{y}}}\right)}} \end{gathered} $$ 式中:$ {n} $为训练样例的个数,$ {{\boldsymbol{Y}}_{{i}}} $为样例中真实的标记集合。IAVP表示在所有预测结果排序中,被排序排在相关标记之前的标记依旧是相关标记且属于相关标记集合的概率。该值越大,说明算法的性能越好。
下面依次给出算子值核,偏迹核和可变换算子值核的相关定义。假设$ {\boldsymbol{X}} $是输入空间,$ {\boldsymbol{Y}} $是希尔伯特空间,$ {\boldsymbol{L}}\left( {\boldsymbol{Y}} \right) $是从$ {\boldsymbol{Y}} $到$ {\boldsymbol{Y}} $的线性算子的集合。
定义1[4] $ {\boldsymbol{L}}({\boldsymbol{Y}}) - $值核$ {\boldsymbol{K}} $是$ {\boldsymbol{X}} \times {\boldsymbol{X}} $上的一个函数,$ {\boldsymbol{K}}\left(\cdot ,\cdot \right):{\boldsymbol{X}}\times {\boldsymbol{X}}\to {\boldsymbol{L}}({\boldsymbol{Y}}) $;该函数是半正定的,如果$ {\boldsymbol{K}}\left({\boldsymbol{x}},{\boldsymbol{z}}\right)={\boldsymbol{K}}{\left({\boldsymbol{z}},{\boldsymbol{x}}\right)}^{\ast } $,其中上标*表示伴随算子;对于任意$ {{n}} \in {{\bf{N}}} $并且$ \left\{{\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{y}}}_{{i}}\right)}_{{i}=1,2,\cdots ,{n}}\right\}\in {\boldsymbol{X}}\times {\boldsymbol{Y}} $,则$ {\displaystyle \sum _{{i},{j}}\langle {{\boldsymbol{y}}}_{{i}},{\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right){{\boldsymbol{y}}}_{{j}}\rangle } \geqslant 0 $。
在处理多标记学习问题时,$ {\boldsymbol{Y}} $是有限维输出空间,$ {\boldsymbol{L}}({\boldsymbol{Y}}) $上的算子退化为矩阵,算子值核$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) $是取值在$ {\boldsymbol{L}}({\boldsymbol{Y}}) $上的二元函数,矩阵$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) $旨在描述样例$ {\boldsymbol{x}} $和$ {\boldsymbol{z}} $之间标记相关性的交互信息。
文献[4]以偏迹核为工具建立了算子值核理论框架。假设$ {{{\boldsymbol H}}_1} $和$ {{{\boldsymbol H}}_2} $是可分离的希尔伯特空间。从希尔伯特空间$ {{{\boldsymbol H}}_1} $到$ {{{\boldsymbol H}}_1} $的有限迹范数的有界线性算子集合使用$ {\boldsymbol{L}}\left( {{{\boldsymbol{H}}_1}} \right) $表示,$ {{\boldsymbol{H}}_1} \otimes {{\boldsymbol{H}}_2} $表示希尔伯特空间$ {{{\boldsymbol H}}_1} $和$ {{{\boldsymbol H}}_2} $的张量积。
定义2[4] 令$ {\left\{ {{{ {e}}_{{i}}}} \right\}_{{i}}} $是$ {{{\boldsymbol H}}_2} $中的正交基,对于$ {\boldsymbol{L}}\left( {{{\boldsymbol{H}}_1} \otimes {{\boldsymbol{H}}_2}} \right) $中的算子$ {\boldsymbol{A}} $,其偏迹$ {\rm{t}}{{\rm{r}}_{{{\boldsymbol{H}}_2}}}{\boldsymbol{A}} $是$ {\boldsymbol{L}}\left( {{{\boldsymbol{H}}_1}} \right) $中的算子,由如下等价关系定义:
$$ \langle {x},\left({\rm{t}}{{\rm{r}}}_{{{\boldsymbol{H}}}_{2}}{\boldsymbol{A}}\right){y}\rangle ={\displaystyle \sum _{{i}}\langle {x}\otimes {{e}}_{{i}},{\boldsymbol{A}}\left({y}\otimes {{e}}_{{i}}\right)\rangle } $$ 此外,偏迹算子$ {\rm{t}}{{\rm{r}}_{{{\boldsymbol{H}}_2}}}{\boldsymbol{A}} $在$ \left( {{{\eta }},{{\xi }}} \right) $位置上的元素正好对应于分块$ {{\boldsymbol{A}}_{{{\eta \xi }}}} $的迹,即$ {\left[ {{\rm{t}}{{\rm{r}}_{{{\boldsymbol{H}}_2}}}{\boldsymbol{A}}} \right]_{{{\eta \xi }}}} = {{\mathrm{tr}}} \left( {{{\boldsymbol{A}}_{{{\eta \xi }}}}} \right) $。
定义3[4] 偏迹核是具有如下形式的算子值核函数$ {\boldsymbol{K}} $:
$$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) = {\rm{t}}{{\rm{r}}_{\boldsymbol{H}}}\left( {{{\boldsymbol{P}}_{{\varphi} \left( {\boldsymbol{x}} \right){\varphi} \left( {\boldsymbol{z}} \right)}}} \right) $$ 式中:$ {P{\boldsymbol{}}_{{\varphi} \left( {\boldsymbol{x}} \right){\varphi} \left( {\boldsymbol{z}} \right)}} $是$ {\boldsymbol{L}}\left( {{\boldsymbol{Y}} \otimes {\boldsymbol{H}}} \right) $上的算子,$ {\rm{t}}{{\rm{r}}_{\boldsymbol{H}}} $表示数值核的再生核希尔伯特空间$ {\boldsymbol{H}} $上的偏迹运算。
定义4[4] 可变换算子值核是一个函数$ {\boldsymbol{K}}:{\boldsymbol{X}} \times {\boldsymbol{X}} \to {{\bf{R}}^{{{n}} \times {{n}}}} $,写作:
$$ \boldsymbol{K}(\boldsymbol{x}, \boldsymbol{z})=\left[\hat{k}\left(\boldsymbol{T}_h(\boldsymbol{x}), \boldsymbol{T}_l(\boldsymbol{z})\right)\right]_{h, l=1}^n, \forall \;\; \boldsymbol{x}, \boldsymbol{z} \in \boldsymbol{X} $$ 式中:$ {{\hat k}}:\hat {\boldsymbol{X}} \times \hat {\boldsymbol{X}} \to {\bf{R}} $是数值核,$ \left\{ {{{\boldsymbol{T}}_{t}}} \right\}_{{t} = 1}^{n} $是从$ {\boldsymbol{X}} $到$ \hat {\boldsymbol{X}} $的映射。
在应用到实际问题时,数值核$ {{\hat k}} $和映射$ \left\{ {{{\boldsymbol{T}}_{t}}} \right\}_{{t} = 1}^{n} $一般都需要预设。本文旨在从多标记数据中学习数值核$ {{\hat k}} $和映射$ \left\{ {{{\boldsymbol{T}}_{t}}} \right\}_{{t} = 1}^{n} $以此来构造可变换算子值核。
2. 学习可变换算子值核
本节先利用核对齐的方法针对单标记问题学习了全局特征对标记的重要度分布。再利用主成分分析(principal component analysis, PCA)[30]提取了单个样例的样例级特征重要度分布。最后,利用两个样例对应的样例级标记相关性矩阵的乘积作为描述两个样例标记相关性之间交互信息的交互矩阵,并证明其不仅是偏迹核而且是可变换算子值核。
2.1 基于核对齐的全局特征对标记的重要度分布
本小节利用核对齐的方法针对单标记问题学习全局特征对标记的重要度分布。
令$ {\boldsymbol{D}}=\left\{\left({{\boldsymbol{x}}}_{1},{\boldsymbol{y}}\right),\left({{\boldsymbol{x}}}_{2},{\boldsymbol{y}}\right),\cdots ,\left({{\boldsymbol{x}}}_{{n}},{\boldsymbol{y}}\right)\right\} $是一个包含$ {n} $个样例的关于标记的单标记数据集合,其中$ {{\boldsymbol{x}}}_{{i}}={\left({{x}}_{{i}}^{1},{{x}}_{{i}}^{2},\cdots ,{{x}}_{{i}}^{{m}}\right)}^{{\rm T}}\in {\boldsymbol{X}} $表示每个样例有$ {{m}} $维特征,单标记$ {\boldsymbol{y}}={\left({{y}}_{1},{{y}}_{2},\cdots ,{{y}}_{{n}}\right)}^{{\rm T}} $。
在特征空间中,每个特征所对应高斯核为$ {{\boldsymbol{K}}_{q}}\left( {{{\boldsymbol{x}}_{i}},{{\boldsymbol{x}}_{j}}} \right) = \exp \dfrac{{ - \left\| {{{\boldsymbol{a}}_{q}}\left( {{{\boldsymbol{x}}_{i}}} \right) - {{\boldsymbol{a}}_{q}}\left( {{{\boldsymbol{x}}_{j}}} \right)} \right\|_2^2}}{{{{\sigma }^2}}} $,则有核矩阵$ {{\boldsymbol{K}}_{q}} $。对于$ {{m}} $个核矩阵$ {{\boldsymbol{K}}}_{{q}},{q}=1,2,\cdots ,{m} $线性凸组合构成的多核矩阵为$ {\boldsymbol{K}}{=}{\displaystyle \sum _{{q}=1}^{{m}}{{\mu}}_{{q}}{{\boldsymbol{K}}}_{{q}}},{{\mu}}_{{q}} \geqslant 0 $。针对单标记数据集,其理想核为$ {{\boldsymbol{K}}_{{{\mathrm{ideal}}}}} = {\boldsymbol{y}}{{\boldsymbol{y}}^{\rm T}} $,其中$ {\boldsymbol{y}}\in {\left\{+1,-1\right\}}^{{n}} $。为刻画特征空间和标记向量之间的相似性,通过特征空间对应线性组合核$ {\boldsymbol{K}}{{ = }}\displaystyle\sum\limits_{{{q}} = 1}^{{m}} {{{{\mu}}_{{q}}}{{\boldsymbol{K}}_{{q}}}} $与标记向量对应理想核$ {{\boldsymbol{K}}_{{{\mathrm{ideal}}}}} $之间的对齐值来实现:
$$ \mathop {\max }\limits_{{\mu}} {\boldsymbol{f}}\left( { \mu } \right) = {\boldsymbol{A}}\left( {{\boldsymbol{K}},{{\boldsymbol{K}}_{{\text{ideal}}}}} \right) $$ $$ {\rm{s}}.{\rm{t}}.{ }{\displaystyle \sum _{{q}=1}^{{m}}{{ \mu }}_{{q}}}=1{,}\quad{{ \mu }}_{{q}} \geqslant 0 。 $$ 式中:$ {\boldsymbol{f}} $为向量值函数,$ {{F}} $为Frobenius范数,
$$ \boldsymbol{A}\left(\boldsymbol{K}, \boldsymbol{K}_{\text {ideal }}\right)=\frac{\left\langle\boldsymbol{K}, \boldsymbol{K}_{\text {ideal }}\right\rangle_F}{\|\boldsymbol{K}\|_{\boldsymbol{F}}\left\|\boldsymbol{K}_{\text {ideal }}\right\|_F}=\frac{\left\langle\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q, \boldsymbol{y y}^{\mathrm{T}}\right\rangle_F}{\left\|\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q\right\|_F\left\|\boldsymbol{y y}^{\mathrm{T}}\right\|_F} $$ 由于$ {\boldsymbol{y}}{{\boldsymbol{y}}^{\rm T}} $是固定的,相应的$ {\left\| {{{\boldsymbol{K}}_{{{\mathrm{ideal}}}}}} \right\|_{{F}}} $是常数。显然该项对求解优化问题没有影响,则简化为
$$ \max _\mu \boldsymbol{f}(\mu)=\frac{\left\langle\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q, \boldsymbol{y} \boldsymbol{y}^{\mathrm{T}}\right\rangle_F}{\left\|\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q\right\|_F} $$ $$ { {\rm{s}}.{\rm{t}}. }\; \displaystyle\sum_{q=1}^m \mu_q=1, \quad \mu_q \geqslant 0 $$ 进一步,上述优化问题可以转化为求解以下最小化形式的优化问题:
$$ \begin{gathered} \min _\mu \boldsymbol{f}(\mu)=\lambda\left\langle\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q, \displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q\right\rangle_F- \\ \left\langle\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q, \boldsymbol{y} \boldsymbol{y}^{\mathrm{T}}\right\rangle_F \end{gathered} $$ $$ { {\rm{s}}.{\rm{t}}. } \sum_{q=1}^m \mu_q=1, \quad \mu_q \geqslant 0 $$ 式中$ \lambda $是用于平衡两项的参数。因为$ \boldsymbol{f}(\mu)= \displaystyle\sum_{q, h}^m \left(\lambda\left\langle\boldsymbol{K}_h, \boldsymbol{K}_q\right\rangle_F\right) \cdot \mu_h \mu_q-\displaystyle\sum_{q=1}^m\left\langle\boldsymbol{K}_q, \boldsymbol{y} \boldsymbol{y}^{\mathrm{T}}\right\rangle_F$,$ \displaystyle\sum_{q, h}^m\left(\lambda\left\langle\boldsymbol{K}_h, \boldsymbol{K}_q\right\rangle_F\right) \cdot \mu_h \mu_q=\lambda\left\langle\displaystyle\sum_{h=1}^m \mu_h \boldsymbol{K}_h, \displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q\right\rangle_F $$ \lambda\left\|\displaystyle\sum_{q=1}^m \mu_q \boldsymbol{K}_q\right\|_F \geqslant 0 $。
上述优化问题可参照支持向量机(support vector machine,SVM)对偶问题的方法利用二次规划问题求解[31]。据此可以求得特征空间中全局特征对标记重要度分布,并且此分布随训练数据变化而调整。
2.2 利用主成分分析学习样例级特征重要度分布
全局特征对标记重要度分布反映了整体数据集上特征与标记之间的关联,而样例级特征重要度分布则强调在具体的样例上特征与标记之间的关联。本小节针对单标记问题,利用PCA降维提取针对单个样例$ {{\boldsymbol{x}}_{{i}}} $的特征集合对单个标记的重要度分布,即样例级特征重要度分布,其反映了数据分布的协方差结构提取样本特异性特征。
利用PCA降维挖掘样例点$ {{\boldsymbol{x}}_{{i}}} $处样例级特征重要度分布的具体步骤如下。
1)根据2.1节可得特征对标记$ {{\boldsymbol{l}}_{\alpha }} $的全局重要度分布:
$$ {\boldsymbol{\mu}}_a(\boldsymbol{X})=\left(\mu_{a 1}(\boldsymbol{X}),\mu_{a 2}(\boldsymbol{X}), \cdots, \mu_{a n}(\boldsymbol{X})\right), \alpha=1,2, \cdots, N 。 $$ 2)针对缺失样例点$ {{\boldsymbol{x}}_i} $,利用核对齐方法度量缺失点处特征对标记重要度分布:
$$ {\boldsymbol{\mu}}_a\left(\boldsymbol{X}-\boldsymbol{x}_i\right) = \left(\mu_{a 1}\left(\boldsymbol{X} - \boldsymbol{x}_i\right), \mu_{a 2}\left(\boldsymbol{X} - \boldsymbol{x}_i\right), \cdots, \mu_{c m}\left(\boldsymbol{X}-\boldsymbol{x}_i\right)\right) 。 $$ 3)令$\boldsymbol{B}(i)= \left(\begin{gathered}{{\boldsymbol{\mu}}_\alpha(\boldsymbol{X})}\\{{\boldsymbol{\mu}}_\alpha\left(\boldsymbol{X}-\boldsymbol{x}_i\right)}\end{gathered}\right) \in \mathbf{R}^{2 \times m}$,对矩阵$ {\boldsymbol{B}}\left( {{i}} \right) $的每一行进行零均值化,可得新矩阵$ {{\boldsymbol{B}}^ * }\left( {{i}} \right) $。然后,通过求解协方差矩阵$ {\boldsymbol{C}}\left( {{i}} \right) = {{\boldsymbol{B}}^ * }\left( {{i}} \right){\left({{\boldsymbol{B}}^ * }{\left( {{i}} \right)}\right)}^{\rm T} \in {{\bf{R}}^{2 \times 2}} $的特征值及其对应的特征向量。同时,将其特征向量按对应特征值的大小排列成矩阵,取第一行向量$ {\boldsymbol{P}}\left( {{i}} \right) $与$ {{\boldsymbol{B}}^ * }\left( {{i}} \right) $相乘并归一化可得样例级特征重要度分布:
$$ {\boldsymbol{\mu}}_a\left(\boldsymbol{x}_i\right)=\left(\mu_{a 1}\left(\boldsymbol{x}_i\right), \mu_{a 2}\left(\boldsymbol{x}_i\right), \cdots, \mu_{a m}\left(\boldsymbol{x}_i\right)\right)。 $$ 利用上述样例级特征重要度分布,可以构建样例级标记相关性矩阵$ {{\boldsymbol{K}}_{{{\boldsymbol{x}}_i}}} $:
$$ \boldsymbol{K}_{{\boldsymbol{x}}_i}=\left[{\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right) \left({\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}}\right]_{N \times N}, \alpha, \beta=1,2 \cdots, N 。 $$ 该矩阵中每个元素刻画了其所对应的两个标记在样例$ {{\boldsymbol{x}}_i} $上的样例级标记相关性。
2.3 基于样例级特征重要度分布的可变换算子值核
在本小节中,利用两个样例对应的样例级标记相关性矩阵的乘积作为描述两个样例之间标记相关性交互信息的交互矩阵。算子值核$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) $是从$ {\boldsymbol{X}} \times {\boldsymbol{X}} $到$ {\boldsymbol{L}}({\boldsymbol{Y}}) $取值为上述交互矩阵的二元函数,可以证明$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) $是正定算子值核,并可以进一步证明$ {\boldsymbol{K}}\left( {{\boldsymbol{x}},{\boldsymbol{z}}} \right) $是偏迹核和可变换算子值核。
定义5 令$ {\boldsymbol{K}}\left( {{{\boldsymbol{x}}_{{i}}},{{\boldsymbol{x}}_{{j}}}} \right) = {\boldsymbol{K}}_{{{\boldsymbol{x}}_{{i}}}}^{\rm T}{{\boldsymbol{K}}_{{{\boldsymbol{x}}_{{j}}}}} $,称它为样例$ {{\boldsymbol{x}}_{{i}}} $和$ {{\boldsymbol{x}}_{{j}}} $之间标记相关性的交互矩阵。
有$ {\boldsymbol{K}}\left( {{{\boldsymbol{x}}_{{i}}},{{\boldsymbol{x}}_{{j}}}} \right) = {\boldsymbol{K}}_{{{\boldsymbol{x}}_{{i}}}}^{\rm T}{{\boldsymbol{K}}_{{{\boldsymbol{x}}_{{j}}}}} = $
$$\begin{gathered} \left[\begin{array}{*{20}{c}} \boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right)\left(\boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right)\left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \\ \vdots & \ddots & \vdots \\ \boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right)\left(\boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right)\left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \end{array}\right] \times \\ \left[\begin{array}{*{20}{c}} \boldsymbol{\mu}_1\left(\boldsymbol{x}_j\right) {\left(\boldsymbol{\mu}_1{\left(\boldsymbol{x}_j\right)}\right)}^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_1\left(\boldsymbol{x}_j\right) \left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \\ \vdots & \ddots & \vdots \\ \boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right) \left(\boldsymbol{\mu}_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right) \left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \end{array}\right]= \\ \left[\begin{array}{*{20}{c}} \boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left(\boldsymbol{\mu}_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_1\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \\ \vdots & \ddots & \vdots \\ \boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left(\boldsymbol{\mu}_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & \boldsymbol{\mu}_N\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left(\boldsymbol{\mu}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \end{array}\right] \end{gathered} $$ 其中矩阵$ \boldsymbol{M} = \displaystyle\sum\limits_{c=1}^N \left(\boldsymbol{\mu}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{\mu}_c\left(\boldsymbol{x}_j\right) $,$ {\boldsymbol{\mu}}_a\left(\boldsymbol{x}_i\right), {\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_i\right), \alpha, \beta = 1,2 \cdots, N $为样例级特征重要度分布。矩阵$ {\boldsymbol{K}}\left( {{{\boldsymbol{x}}_{{i}}},{{\boldsymbol{x}}_{{j}}}} \right) $利用样例级特征重要度分布描述了两两标记相关性矩阵之间的关联关系,从而刻画了样例之间标记相关性的交互信息。
定理1 $ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $是半正定算子值核。
证明 由定义2.1可知
$$ \begin{gathered} \qquad\qquad\qquad \displaystyle\sum\limits_{c=1}^N \left(\boldsymbol{\mu}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{\mu}_c\left(\boldsymbol{x}_j\right)= \\ \left[ {\begin{array}{*{20}{c}} {\displaystyle\sum\limits_{{{c}} = 1}^{{N}} {{ \mu _{{{c}}1}}\left( {{{\boldsymbol x}_{{i}}}} \right){ \mu _{{{c}}1}}\left( {{{\boldsymbol x}_j}} \right)} }& \cdots &{\displaystyle\sum\limits_{{{c}} = 1}^{{N}} {{ \mu _{c1}}\left( {{{\boldsymbol x}_{{i}}}} \right){ \mu _{c{{m}}}}\left( {{{\boldsymbol x}_{{j}}}} \right)} } \\ \vdots & \ddots & \vdots \\ {\displaystyle\sum\limits_{{{c}} = 1}^{{N}} {{ \mu _{{{cm}}}}\left( {{{\boldsymbol x}_{{i}}}} \right){ \mu _{{{c}}1}}\left( {{{\boldsymbol x}_{{j}}}} \right)} }& \cdots &{\displaystyle\sum\limits_{{{c}} = 1}^{{N}} {{ \mu _{{{cm}}}}\left( {{{\boldsymbol x}_{{i}}}} \right){ \mu _{{{cm}}}}\left( {{{\boldsymbol x}_{{j}}}} \right)} } \end{array}} \right] \end{gathered} $$ 令向量
$$ {{\boldsymbol{S}}}^{{d}}\left({{\boldsymbol{x}}}_{{i}}\right)={\left[{ \mu }_{{d}1}\left({{\boldsymbol{x}}}_{{i}}\right){,}{ \mu }_{{d}2}\left({{\boldsymbol{x}}}_{{i}}\right){,}\cdots {,}{ \mu }_{{dN}}\left({{\boldsymbol{x}}}_{{i}}\right)\right]}^{{\rm T}}{,}{d}=1{,}2{,}\cdots {,}{m} {,}$$ 那么矩阵
$$ \begin{gathered} \sum_{c=1}^N \left(\boldsymbol{\mu}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{\mu}_c\left(\boldsymbol{x}_j\right)= \\ {\left[\begin{array}{ccc} \left(\boldsymbol{S}^1\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{S}^1\left(\boldsymbol{x}_j\right) & \cdots & \left(\boldsymbol{S}^1\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{S}^m\left(\boldsymbol{x}_j\right) \\ \vdots & \ddots & \vdots \\ \left(\boldsymbol{S}^m\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{S}^1\left(\boldsymbol{x}_j\right) & \cdots & \left(\boldsymbol{S}^m\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{S}^m\left(\boldsymbol{x}_j\right) \end{array}\right]} \end{gathered}$$ 因此,简化矩阵$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $中的每个元素$ \boldsymbol{\mu}_\alpha\left(\boldsymbol{x}_i\right) \displaystyle\sum\limits_{c=1}^N \left(\boldsymbol{\mu}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} \boldsymbol{\mu}_c\left(\boldsymbol{x}_j\right) \left(\boldsymbol{\mu}_\beta\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} $可得
$$ \begin{gathered} \left[ {{{ \mu }_{{{\alpha }}1}}\left( {{{\boldsymbol x}_{{i}}}} \right){{ \mu }_{{{\alpha }}2}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \;\;\; \cdots \;\;\;{{{ \mu }_{{{\alpha m}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \right]\left[ {\begin{array}{*{20}{c}} \left({{\boldsymbol S}^1}{\left( {{{\boldsymbol x}_{{i}}}} \right)}\right)^{\rm T} \\ \left({{\boldsymbol S}^2}{\left( {{{\boldsymbol x}_{{i}}}} \right)}\right)^{\rm T} \\ \vdots \\ \left({{\boldsymbol S}^{{m}}}{\left( {{{\boldsymbol x}_{{i}}}} \right)}\right)^{\rm T} \end{array}} \right] \\ \left[ {{{\boldsymbol S}^1}\left( {{{\boldsymbol x}_{{j}}}} \right) {{{\boldsymbol S}^2}\left( {{{\boldsymbol x}_{{j}}}} \right)} \;\;\; \cdots \;\;\; {{{\boldsymbol S}^{{m}}}\left( {{{\boldsymbol x}_{{j}}}} \right)} } \right]\left[ {\begin{array}{*{20}{c}} {{{ \mu }_{{{\beta }}1}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \\ {{{ \mu }_{{{\beta 2}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \\ \vdots \\ {{{ \mu }_{{{\beta m}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \end{array}} \right] = \\ \left[ \sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{{{\alpha d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right){{ \mu }_{1{{d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} {\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{{{\alpha d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right){{ \mu }_{{{2d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} } \cdots \right. \\ \left. {\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{{{\alpha d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right){{ \mu }_{{{Nd}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} } \right] \\ \left[ {\begin{array}{*{20}{c}} {\displaystyle\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{{{\beta d}}}}\left( {{{\boldsymbol x}_{{j}}}} \right){{ \mu }_{1{{d}}}}\left( {{{\boldsymbol x}_{{j}}}} \right)} } \\ \vdots \\ {\displaystyle\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{{{\beta d}}}}\left( {{{\boldsymbol x}_{{j}}}} \right){{ \mu }_{{{Nd}}}}\left( {{{\boldsymbol x}_{{j}}}} \right)} } \end{array}} \right] = {\phi _{{\alpha }}}\left( {{{\boldsymbol x}_{{i}}}} \right)\left(\phi _{{\beta }}\left( {{{\boldsymbol x}_{{j}}}} \right)\right)^{\rm T} \end{gathered} $$ 其中$ {\phi _\alpha}\left( {{{\boldsymbol{x}}_{{i}}}} \right) =$
$ \left[ {\displaystyle\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{\alpha{{d}}}} \left( {{{\boldsymbol x}_{{i}}}} \right) {{ \mu }_{1{{d}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} {\displaystyle\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{\alpha{{d}}}} \left( {{{\boldsymbol x}_{{i}}}} \right) {{ \mu }_{{{2d}}}} \left( {{{\boldsymbol x}_{{i}}}} \right) } } \cdots {\displaystyle\sum\limits_{{{d}} = 1}^{{m}} {{{ \mu }_{\alpha{{d}}}} \left( {{{\boldsymbol x}_{{i}}}} \right) {{ \mu }_{{{Nd}}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} } } \right] $并且$ \alpha,\beta=1,2,\cdots ,{N} $。综上所述,$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right)= $
$$ \left[ {\begin{array}{*{20}{c}} {{\phi _1}\left( {{{\boldsymbol x}_{{i}}}} \right)} \\ {{\phi _2}\left( {{{\boldsymbol x}_{{i}}}} \right)} \\ \vdots \\ {{\phi _{{N}}}\left( {{{\boldsymbol x}_{{i}}}} \right)} \end{array}} \right]\left[ {{{\begin{array}{*{20}{c}} \left(\phi_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \left(\phi_2\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & \left(\phi_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \end{array}}}} \right] 。 $$ 由算子值核的定义可知:
$$ \begin{gathered} \sum_{i, j}\left\langle\boldsymbol{y}_i, \boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right) \boldsymbol{y}_j\right\rangle=\sum_{i, j} \boldsymbol{y}_i^{\mathrm{T}} \boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right) \boldsymbol{y}_j = \\ \sum_{i, j} \boldsymbol{y}_i^{\mathrm{T}} \left[ \begin{array}{c} \phi_1\left(\boldsymbol{x}_i\right) \\ \phi_2\left(\boldsymbol{x}_i\right) \\ \vdots \\ \phi_N\left(\boldsymbol{x}_i\right) \end{array} \right] \left[\left(\phi_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \left(\phi_2\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \; \cdots \; \left(\phi_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}}\right] \boldsymbol{y}_j = \\ \sum_{i, j}\left\langle\phi\left(\boldsymbol{x}_i\right) \boldsymbol{y}_i, \phi\left(\boldsymbol{x}_j\right) \boldsymbol{y}_j\right\rangle = \\ \left\|\sum_i\left[ \phi_1\left(\boldsymbol{x}_i\right)^{\mathrm{T}} \;\;\; \phi_2\left(\boldsymbol{x}_i\right)^{\mathrm{T}} \;\;\; \cdots \;\;\; \phi_N\left(\boldsymbol{x}_i\right)^{\mathrm{T}} \right] \boldsymbol{y}_i\right\|^2 \geq 0 \end{gathered} $$ 其中$ \phi\left({\boldsymbol x}_i\right)=\left[ \phi_1\left({\boldsymbol x}_i\right)^{\mathrm{T}} \;\phi_2\left({\boldsymbol x}_i\right)^{\mathrm{T}} \; \cdots \; \phi_N\left({\boldsymbol x}_i\right)^{\mathrm{T}} \right] $,则$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}}, {{\boldsymbol{x}}}_{{j}}\right) $是半正定的核。
定理2 $ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $是偏迹核。
证明 由定义5可知$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right)= $
$ \left[\begin{array}{ccc}{\boldsymbol{\mu}}_1\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & {\boldsymbol{\mu}}_1\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} \\\vdots & \ddots & \vdots \\{\boldsymbol{\mu}}_N\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & {\boldsymbol{\mu}}_N\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}}\end{array}\right] $,
其中矩阵$ \boldsymbol{M}= \displaystyle\sum_{c=1}^N \left( {\boldsymbol{\mu}}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_c\left(\boldsymbol{x}_j\right) $。
算子值核$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $中每个元素$ {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} $可写成迹的形式,具体为
$$ \begin{gathered} {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right) \boldsymbol{M} \left({\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}}=\operatorname{tr}\left(\left[\left({\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right)\right] \cdot \boldsymbol{M}\right) \\ \alpha, \beta=1,2, \cdots, N \end{gathered} $$ 则算子值核$ {\boldsymbol{K}}\left( {{{\boldsymbol{x}}_{{i}}},{{\boldsymbol{x}}_{{j}}}} \right) $可以改写成
$$ \left[\begin{array}{ccc} \operatorname{tr}\left(\boldsymbol{V}_{11} \boldsymbol{M}\right) & \cdots & \operatorname{tr}\left(\boldsymbol{V}_{N 1} \boldsymbol{M}\right) \\ \vdots & \ddots & \vdots \\ \operatorname{tr}\left(\boldsymbol{V}_{1 N} \boldsymbol{M}\right) & \cdots & \operatorname{tr}\left(\boldsymbol{V}_{N N} \boldsymbol{M}\right) \end{array}\right], $$ 其中矩阵
$$ \begin{gathered} \boldsymbol{V}_{\alpha \beta}=\left({\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right), \quad \alpha, \beta=1,2, \cdots, N \\ \boldsymbol{M}=\sum_{c=1}^N \left({\boldsymbol{\mu}}_c\left(\boldsymbol{x}_i\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_c\left(\boldsymbol{x}_j\right) \end{gathered} $$ 根据偏迹核的定义,
$$ \begin{gathered} \boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right)=\operatorname{tr}\left[\begin{array}{ccc} \boldsymbol{V}_{11} \boldsymbol{M} & \cdots & \boldsymbol{V}_{N 1} \boldsymbol{M} \\ \vdots & \ddots & \vdots \\ \boldsymbol{V}_{1 N} \boldsymbol{M} & \cdots & \boldsymbol{V}_{N N} \boldsymbol{M} \end{array}\right]= \\ {\left[\begin{array}{ccc} \operatorname{tr}\left(\boldsymbol{V}_{11} \boldsymbol{M}\right) & \cdots & \operatorname{tr}\left(\boldsymbol{V}_{N 1} \boldsymbol{M}\right) \\ \vdots & \ddots & \vdots \\ \operatorname{tr}\left(\boldsymbol{V}_{1 N} \boldsymbol{M}\right) & \cdots & \operatorname{tr}\left(\boldsymbol{V}_{N N} \boldsymbol{M}\right) \end{array}\right]} \end{gathered} $$ 则算子值核$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $是偏迹核。
定理3 $ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $是可变换算子值核。
证明 由定理1可知,算子值核$ {\boldsymbol{K}}\left({{\boldsymbol{x}}}_{{i}},{{\boldsymbol{x}}}_{{j}}\right) $可以写作:$ \left[ \begin{array}{c}\phi_1\left(\boldsymbol{x}_i\right) \\\phi_2\left(\boldsymbol{x}_i\right) \\\vdots \\\phi_N\left(\boldsymbol{x}_i\right)\end{array} \right]\left[ \begin{array}{llll}\left(\phi_1\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \left(\phi_2\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}} & \cdots & \left(\phi_N\left(\boldsymbol{x}_j\right)\right)^{\mathrm{T}}\end{array} \right] $。由可变换算子值核的定义可知$ {\boldsymbol K}\left({\boldsymbol x}_{{i}},{\boldsymbol x}_{{j}}\right) $满足条件,$ {\boldsymbol K}\left({\boldsymbol x}_{{i}},{\boldsymbol x}_{{j}}\right)={\left[\langle {{\boldsymbol{T}}}_{{h}}({\boldsymbol x}_{{i}}),{{\boldsymbol{T}}}_{{l}}({\boldsymbol x}_{{j}})\rangle \right]}_{{h},{l}=1}^{{N}} $。其中映射$ {{\boldsymbol T}_{{h}}}({{\boldsymbol x}_{{i}}}) = {\phi _{{h}}}\left( {{{\boldsymbol x}_{{i}}}} \right) $和$ {{\boldsymbol T}_{{l}}}({{\boldsymbol x}_{{j}}}) = {\phi_{{l}}}\left( {{{\boldsymbol x}_{{j}}}} \right) $,并且$ {h},{l}=1,2,\cdots ,{N} $和$ {i},{j}= 1,2,\cdots ,{n} $。综上所述,$ {\boldsymbol K}\left({\boldsymbol x}_{{i}},{\boldsymbol x}_{{j}}\right) $是可变换算子值核。
3. 基于可变换算子值核的学习算法
文献[32-33]中提出了求预测函数$ {\boldsymbol{g}}({\boldsymbol{x}}) $的算法,本节基于可变换算子值核将其运用到多标记学习中。对给定数据集可以求得算子值核矩阵$ {\boldsymbol{K}} $,针对新进样例$ {{\boldsymbol{x}}_{\textit{τ}}} $预测函数具有如下形式[33]:
$$\boldsymbol{g}\left(\boldsymbol{x}_\tau\right)=\boldsymbol{K}^{\mathrm{T}}\left(\boldsymbol{x}_\tau, \boldsymbol{x}_\tau\right) \cdot \boldsymbol{k}_{x_\tau}^{\mathrm{T}}(\boldsymbol{K}+n \lambda \boldsymbol{I})^{-1} \boldsymbol{Y} $$ 其中
$$ \begin{gathered} \boldsymbol{Y}=\left[\boldsymbol{y}_1, \boldsymbol{y}_2, \cdots, \boldsymbol{y}_n\right]^{\mathrm{T}} \in \boldsymbol{L}(\boldsymbol{Y})^n \\ \boldsymbol{K}=\left[\boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right)\right]_{i, j=1}^n \in \boldsymbol{L}(\boldsymbol{Y})^{n \times n} \\ \boldsymbol{k}_{{\boldsymbol{x}}_\tau}^{\mathrm{T}}=\left[\boldsymbol{K}\left(\boldsymbol{x}_1, \boldsymbol{x}_\tau\right), \boldsymbol{K}\left(\boldsymbol{x}_2, \boldsymbol{x}_\tau\right), \cdots, \boldsymbol{K}\left(\boldsymbol{x}_n, \boldsymbol{x}_\tau\right)\right] \in \boldsymbol{L}(\boldsymbol{Y})^{\mathrm{l} \times n} \end{gathered} $$ 在$\boldsymbol{k}_{{\boldsymbol{x}}_\tau}^{\mathrm{T}} $中$ \boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_\tau\right)=\boldsymbol{K}_{{\boldsymbol{x}}_i}^{\mathrm{T}} \boldsymbol{K}_{{\boldsymbol{x}}_\tau}, i=1,2, \cdots, n $。
当计算$ \boldsymbol{k}_{{\boldsymbol{x}}_\tau}^{\mathrm{T}} $和算子$ \boldsymbol{K}\left(\boldsymbol{x}_\tau, \boldsymbol{x}_\tau\right) $时,需依赖于新进样例$ \boldsymbol{x}_\tau $的样例级特征重要度分布构建标记相关性矩阵$ \boldsymbol{k}_{{\boldsymbol{x}}_\tau} $。因此,对于任意新进样例$ {{\boldsymbol{x}}_\tau} \in {\boldsymbol{X}} $,首先根据岭回归算法度量其特征对标记$ {\boldsymbol{l}}_\alpha, \alpha=1, 2, \cdots, N $样例级特征重要度分布
$$ {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_\tau\right)=\left(\mu_{\alpha 1}\left(\boldsymbol{x}_\tau\right), \mu_{\alpha 2}\left(\boldsymbol{x}_\tau\right), \cdots, \mu_{\alpha n}\left(\boldsymbol{x}_\tau\right)\right), $$ 目标函数为
$$ \boldsymbol{f}^\lambda=\underset{\boldsymbol{f} \in \boldsymbol{H}}{\arg \min } \frac{1}{n}\left\|\boldsymbol{f}\left(\boldsymbol{x}_i\right)-\boldsymbol{z}_i\right\|^2+\lambda\|\boldsymbol{W}\|^2 。 $$ (1) 式中预测函数$ {\boldsymbol{f}}\left( {{{\boldsymbol{x}}_{{i}}}} \right) = {\boldsymbol{W}} \cdot {{\boldsymbol{x}}_{{i}}} $。对于新进样例$ {{\boldsymbol{x}}_{\textit{τ}}} $,通过式(1),可以求解关于特征对标记的权重矩阵$ {\boldsymbol{W}} \in {{\bf{R}}^{{{m}} \times {{m}}}} $。$ \lambda $是正则化系数,$ \boldsymbol{Z}=\left[\boldsymbol{z}_1, \boldsymbol{z}_2, \cdots, \boldsymbol{z}_n\right]^{\mathrm{T}} \in \mathbf{R}^{m \times n} $,其中$ {{\boldsymbol{z}}}_{{i}}={\boldsymbol{\mu}}_{{\alpha }}\left({{\boldsymbol{x}}}_{{i}}\right),{i=}1,2,\cdots ,{n} $表示特征对标记$ {{\boldsymbol{l}}_\alpha} $的样例级特征重要度分布。该优化问题求解过程为:在特征空间中,定义输入数据矩阵$ {\boldsymbol{F}} $,其第$ {{i}} $列为$ {{\boldsymbol{x}}_{{i}}} $。在标记空间中,定义目标矩阵$ {\boldsymbol{Z}} $,其第$ {{i}} $列为$ {{\boldsymbol{z}}_{{i}}} $。分别计算输入数据的自相关矩阵$ {\boldsymbol{F}}{{\boldsymbol{F}}^{\rm T}} \in {{\bf{R}}^{{{m}} \times {{m}}}} $和目标与输入的互相关矩阵$ {\boldsymbol{Z}}{{\boldsymbol{F}}^{\rm T}} \in {{\bf{R}}^{{{m}} \times {{m}}}} $。则最优权重矩阵为$ \boldsymbol{W}=\boldsymbol{Z} \boldsymbol{F}^{\mathrm{T}}\left(\boldsymbol{F} \boldsymbol{F}^{\mathrm{T}}+n \lambda \boldsymbol{I}\right)^{-1} $。其中$ {\boldsymbol{I}} $是单位矩阵,$ n \lambda $是缩放后的正则化系数。最后,预测新进点$ {{\boldsymbol{x}}_{\tau}} $的样例级特征重要度分布:
$$ \boldsymbol{f}\left(\boldsymbol{x}_\tau\right)=\boldsymbol{W} \cdot \boldsymbol{x}_\tau={\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_\tau\right), \quad \alpha=1,2, \cdots, N $$ 并对其进行归一化处理。则新进样例点的样例级标记相关性矩阵表示为
$$ \boldsymbol{K}_{{\boldsymbol{x}}_\tau}=\left[\left({\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_\tau\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_\tau\right)\right]_{N \times N}, \quad \alpha, \beta=1,2, \cdots, N 。 $$ 本文所设计算法的具体步骤在算法1中。算法1的空间复杂度主要由算子值核矩阵来决定。下面将本文所设计的算法的空间复杂度与其他算法进行比较。ML-KNN算法(multi-label K-nearest neighbors algorithm)[13]的空间复杂度为$ {{O}}\left( {{{n}} \cdot \left( {{{m}} + {{N}}} \right){{ + n}} \cdot {{N}} \cdot {{k}}} \right) $,其中$ {{n}} $为样本数量,$ {{m}} $为特征向量的维数,$ {{N}} $为标记数量,$ {{k}} $为相近邻样本数量。MDDM算法(multilabel dimensionality reduction via dependence maximization)[14]的空间复杂度为$ {{O}}\left( {{{{N}}^2}{{ + }}{{{m}}^{{2}}} + {{mN}} + {{mp}}} \right) $,其中$ {{m}} $为原始特征维数,$ {{p}} $为降维后的目标维数,$ {{N}} $为标记数量。RMFRS算法(feature selection for multi-label learning based on kernelized fuzzy rough sets)[15]的空间复杂度为$ {{O}}\left( {{{{n}}^{{2}}}{{ + mp}}} \right) $,其中$ {{m}} $为特征向量的维数,$ {{n}} $为样本数量,$ {{p}} $为降维后的目标维数。PMFS算法(Pareto-based feature selection algorithm for multi-label classification)[16]的空间复杂度为$ {{O}}\left( {{{{n}}^{{2}}}{{{N}}^2}{{ + }}{{{n}}^{{2}}}} \right) $,其中$ {{n}} $为样本数量,$ {{N}} $为标记数量。本文所提算法的整体空间复杂度为$ {{O}}\left( {{{{n}}^{{2}}}{{{N}}^2}{{ + }}{{{m}}^{{2}}}} \right) $,其中$ {{n}} $为样本数量,$ {{N}} $为标记数量,$ {{m}} $为特征向量的维数。此算法的整体空间复杂度由两部分组成:1)算子值核的空间复杂度为$ {{O}}\left( {{{{N}}^2}} \right) $;2)核岭回归方法的空间复杂度为$ {{O}}\left( {{{{n}}^{{2}}}{{{N}}^2}} \right) $。并且此算法的整体空间复杂度不如ML-KNN、MDDM、RMFRS算法,优于PMFS算法。此算法的空间复杂度较高是核岭回归问题导致的。而本文所设计的算子值核的空间复杂度与MDDM算法相同,优于其他算法的空间复杂度。
算法1 可变换算子核学习算法(TRANS-OVK算法)
输入 多标记数据集$ \boldsymbol{D}=\left\{\left(\boldsymbol{x}_1, \boldsymbol{y}_1\right), \left(\boldsymbol{x}_2, \boldsymbol{y}_2\right), \cdots, \left(\boldsymbol{x}_n, \boldsymbol{y}_n\right)\right\} $;$ \boldsymbol{X}=\left(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n\right) $表示特征空间,$ \boldsymbol{Y}= \left(\boldsymbol{y}_1, \boldsymbol{y}_2, \cdots, \boldsymbol{y}_n\right) $表示标记空间;$ \boldsymbol{x}_i=\left(x_i^1, x_i^2, \cdots, x_i^m\right)^{\mathrm{T}} $表示特征空间中第$ {i} $个样例所对应的向量,$ \boldsymbol{y}_i= \left(y_i^1, y_i^2, \cdots, y_i^N\right)^{\mathrm{T}} $表示标记空间中第$ {i} $个样例所对应的向量。
输出 预测函数$ {\boldsymbol{g}}\left({\boldsymbol{x}}_\tau\right) $。
1)计算组合核矩阵$ \boldsymbol{K}=\displaystyle\sum_{q=1}^m \alpha_q \boldsymbol{K}_q, \quad \alpha_q \geqslant 0 $和理想核$ \boldsymbol{K}_{\text {ideal }}=\boldsymbol{y} \boldsymbol{y}^{\mathrm{T}} $;
2)基于核对齐,由数据标记结构动态优化生成全局特征重要度分布$ {\boldsymbol{\mu}}_a=\left( \mu_{a 1}, \;\;\; \mu_{a 2}, \cdots, \;\;\; \mu_{a m} \right) $;
3)计算缺失点特征对标记的重要度分布$ {{\boldsymbol{\mu}}}_\alpha\left(\boldsymbol{X}-\boldsymbol{x}_i\right)=\left({\boldsymbol{\mu}}_{\alpha 1}\left(\boldsymbol{X}-\boldsymbol{x}_i\right), {\boldsymbol{\mu}}_{\alpha 2}\left(\boldsymbol{X}-\boldsymbol{x}_i\right), \cdots, {\boldsymbol{\mu}}_{\alpha m}\left(\boldsymbol{X}-\boldsymbol{x}_i\right)\right) $;
4)利用PCA降维提取样例级特征重要度分布$ {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_i\right)=\left(\mu_{\alpha 1}\left(\boldsymbol{x}_i\right), \mu_{\alpha 2}\left(\boldsymbol{x}_i\right), \cdots, \mu_{o m}\left(\boldsymbol{x}_i\right)\right) $,其反映了数据分布的协方差结构自动提取样本特异性特征;
5)基于样例级重要度分布构造算子值核$ \boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right)=\boldsymbol{K}_{\boldsymbol{x}_i}^{\mathrm{T}} \boldsymbol{K}_{\boldsymbol{x}_j} $,其中样例级标记相关性矩阵$ \boldsymbol{K}_{{\boldsymbol{x}}_i}=\left[{{\boldsymbol{\mu}}}_a\left(\boldsymbol{x}_i\right)^{\mathrm{T}} {{\boldsymbol{\mu}}}_\beta\left(\boldsymbol{x}_i\right)\right]_{N \times N} $,并且算子值核矩阵$ \boldsymbol{K}= \left[\boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right)\right]_{i, j=1}^n $。算子值核$ {\boldsymbol{K}}\left( {{{\boldsymbol{x}}_{i}},{{\boldsymbol{x}}_{j}}} \right) $完全依赖样本局部特征重要度,实现样本自适应的核学习;
6)针对新进点$ {{\boldsymbol{x}}_{\tau }} $,通过求解岭回归问题,计算关于特征对标记的权重矩阵$ {\boldsymbol{W}} $;
7)预测新进点$ {{\boldsymbol{x}}_{\tau }} $的样例级特征重要度分布$ {\boldsymbol{\mu}}_\alpha\left(\boldsymbol{x}_\tau\right)=\boldsymbol{W} \cdot \boldsymbol{x}_\tau, \alpha=1,2, \cdots, N $;
8)计算新进点$ {{\boldsymbol{x}}_{\tau }} $的可变换算子值核$ \boldsymbol{K}\left(\boldsymbol{x}_\tau, \boldsymbol{x}_\tau\right)= \boldsymbol{K}_{\boldsymbol{x}_\tau}{ }^{\mathrm{T}} \boldsymbol{K}_{\boldsymbol{x}_\tau} $,其中$ \boldsymbol{K}_{{\boldsymbol{x}}_\tau}=\left[\left({\boldsymbol{\mu}}_a\left(\boldsymbol{x}_\tau\right)\right)^{\mathrm{T}} {\boldsymbol{\mu}}_\beta\left(\boldsymbol{x}_\tau\right)\right]_{N \times N} $;
9)计算$ \boldsymbol{k}_{{\boldsymbol{x}}_\tau^{\mathrm{T}}}^{\mathrm{T}}=\left[\boldsymbol{K}\left(\boldsymbol{x}_1, \boldsymbol{x}_\tau\right), \cdots, \boldsymbol{K}\left(\boldsymbol{x}_n, \boldsymbol{x}_\tau\right)\right] $,其中$\boldsymbol{K}\left(\boldsymbol{x}_i, \boldsymbol{x}_\tau\right)= \boldsymbol{K}_{{\boldsymbol{x}}_i}^{\mathrm{T}} \boldsymbol{K}_{{\boldsymbol{x}}_\tau}, i=1,2 \cdots, n $;
10)通过求解核岭回归问题,得到预测结果$ \boldsymbol{g}\left(\boldsymbol{x}_\tau\right)=\boldsymbol{K}^{\mathrm{T}}\left(\boldsymbol{x}_\tau, \boldsymbol{x}_\tau\right) \cdot \boldsymbol{k}_{{\boldsymbol{x}}_\tau}^{\mathrm{T}}(\boldsymbol{K}+n \lambda \boldsymbol{I})^{-1} \boldsymbol{Y} $。
4. 实验验证
本章根据第1章所提5项评价指标,给出4种高性能对比算法和本文提出算法在9个数据集上的数值实验结果。
4.1 实验设置
多标记分类算法旨在从多标记训练数据集中挖掘信息,构建目标函数,然后预测任何测试样例的多维语义输出。为验证多标记学习算法的分类有效性,实验选取了9个数据集。分别为birds、business、cal500、emotion、genbase、image、reuters、scene、yeast。其中,birds数据集是声音的集合,cal500,emotion代表音乐中的数据集,genbase、image和scene是图像信息组成的数据集,reuters和business是文本分类数据集,yeast是一种与基因功能的分类有关的生物数据集。每个数据集的详细情况总结在表1 中。上述所有多标记数据集均来自开源数据库Mulan Library。本文首次将算子值核应用到多标记学习领域中,目前尚无其他与算子值核相关的多标记学习算法,因此选择4种具有代表性的多标记学习算法进行比较,包括ML-KNN[13]、MDDM[14]、RMFRS[15]及PMFS[16]。
表 1 多标记数据集Table 1 Multi-label data set数据集 样例数量 特征数量 标记数量 birds 645 260 20 business 5 000 438 30 cal500 502 68 174 emotion 593 72 6 genbase 662 1 185 27 image 2 000 135 5 reuters 2 000 243 7 scene 2 407 294 6 yeast 2 417 103 14 本文采用标准化实验流程:对于每个多标记数据集,通过0-1归一化方法对输入变量进行规范化处理。在实验设计方面,每个数据集均进行多次重复实验以验证分类结果的稳定性。训练数据集和测试数据集按4꞉1进行随机划分,其中占比为80%的训练样本用于模型训练,剩余占比20%的测试集用于评估模型性能。最后,实验结果通过计算多次独立实验测量指标的算术平均值及其标准差进行呈现,以此确保实验结论的统计可靠性。
4.2 实验结果与分析
从表2可以看出TRANS-OVK(transformable operator-valued Kernel)算法在多个数据集上都呈现出分类性能优势,尤其在数据集birds、business、emotion、genbase、image、scene、yeast上,以AVP为评价指标,是优于其他算法的。并且TRANS-OVK算法和PMFS算法在数据集business、emotion和genbase上分类性能结果相近。在数据集cal500上,ML-KNN算法明显比TRANS-OVK算法和其他3个对比算法表现更为优异,并且PMFS算法在数据集reuters上展现出的性能是优于其他算法的。
表 2 在评价指标AVP(↑)下TRANS-OVK算法与4个对比算法的实验结果比较Table 2 Comparison between TRANS-OVK algorithm and four comparison algorithms on AVP(↑)数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.7088 ±0.0213 0.5816 ±0.0048 0.6787 ±0.0363 0.7071 ±0.0327 0.7237 ±0.0139 business 0.8716 ±0.0071 0.8627 ±0.0003 0.8730 ±0.0063 0.8756 ±0.0047 0.8771 ±0.0042 cal500 0.4857 ±0.0049 0.4981 ±0.0030 0.4828 ±0.0044 0.4931 ±0.0039 0.4903 ±0.0056 emotion 0.7440 ±0.0172 0.5831 ±0.0123 0.7499 ±0.0509 0.7540 ±0.0166 0.7562 ±0.0358 genbase 0.7511 ±0.1520 0.7513 ±0.1471 0.4561 ±0.0553 0.9843 ±0.0313 0.9871 ±0.0295 image 0.6978 ±0.0424 0.5181 ±0.0088 0.6574 ±0.0547 0.6921 ±0.0558 0.6979 ±0.0357 reuters 0.8260 ±0.0416 0.6012 ±0.0020 0.8145 ±0.0417 0.8420 ±0.0356 0.8254 ±0.0269 scene 0.7448 ±0.0796 0.3181 ±0.0460 0.5897 ±0.1519 0.7416 ±0.0930 0.7522 ±0.0242 yeast 0.7446 ±0.0141 0.7102 ±0.0012 0.7332 ±0.0159 0.7487 ±0.0106 0.7543 ±0.0328 注:加粗表示本行最优结果。 从表3可以看出MDDM算法在数据集birds和scene上,以RL为评价指标,所呈现出的分类效果是优于其他算法的,而PMFS算法在数据集emotion上的表现是最好的。在其余数据集上,本文所提出的TRANS-OVK算法明显优于其他4个对比算法。
表 3 在评价指标RL(↓)下TRANS-OVK算法与4个对比算法的实验结果比较Table 3 Comparison between TRANS-OVK algorithm and four comparison algorithms on RL(↓)数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.1152 ±0.0079 0.1861 ±0.0038 0.1363 ±0.0241 0.1217 ±0.0206 0.1153 ±0.0136 business 0.0427 ±0.0029 0.0487 ±0.0003 0.0418 ±0.0030 0.0410 ±0.0024 0.0401 ±0.0013 cal500 0.1853 ±0.0016 0.1813 ±0.0007 0.1860 ±0.0018 0.1819 ±0.0018 0.1810 ±0.0014 emotion 0.2276 ±0.0184 0.4265 ±0.0171 0.2229 ±0.0640 0.2031 ±0.0205 0.2173 ±0.0395 genbase 0.0617 ±0.0371 0.0580 ±0.0337 0.1547 ±0.0187 0.0083 ±0.0068 0.0078 ±0.0044 image 0.2609 ±0.0445 0.4622 ±0.0096 0.3016 ±0.0560 0.2681 ±0.0592 0.2546 ±0.0436 reuters 0.1155 ±0.0278 0.2791 ±0.0027 0.1238 ±0.0327 0.1059 ±0.0261 0.1123 ±0.0239 scene 0.1399 ±0.0674 0.6529 ±0.0734 0.2856 ±0.1457 0.1542 ±0.0792 0.1565 ±0.0697 yeast 0.1804 ±0.0095 0.2042 ±0.0010 0.1876 ±0.0119 0.1808 ±0.0084 0.1734 ±0.0114 注:加粗表示本行最优结果。 从表4可以看出MDDM算法数据集在birds和scene上,以CV评价指标,展现出的效果是最优的。在其余数据集上,本文所提出TRANS-OVK算法明显优于其他4个对比算法。
表 4 在评价指标CV(↓)下TRANS-OVK算法与4个对比算法的实验结果比较Table 4 Comparison between TRANS-OVK algorithm and four comparison algorithms on CV(↓)数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 3.3770 ±0.1749 4.8792 ±0.0798 3.8138 ±0.5010 3.5624 ±0.4262 3.5121 ±0.2160 business 2.3547 ±0.1105 2.5912 ±0.0134 2.3374 ±0.1073 2.3152 ±0.0869 2.2491 ±0.0502 cal500 132.1324 ±0.7145 128.9072 ±0.8342 132.4331 ±0.9138 127.5946 ±0.8853 126.6102 ±0.9114 emotion 2.1899 ±0.0936 3.2241 ±0.0920 2.1488 ±0.3141 2.0410 ±0.1136 2.0311 ±0.2382 genbase 2.3537 ±1.1237 1.9435 ±0.9042 4.9291 ±0.5734 0.6510 ±0.1924 0.6383 ±0.2169 image 1.2885 ±0.1689 2.0978 ±0.0394 1.4456 ±0.2168 1.3359 ±0.2248 1.2396 ±0.2005 reuters 0.8684 ±0.1638 1.8229 ±0.0168 0.9197 ±0.1958 0.8145 ±0.1564 0.8982 ±0.2319 scene 0.7333 ±0.3369 3.3339 ±0.3667 1.4602 ±0.7281 0.8667 ±0.3958 0.8164 ±0.2965 yeast 6.4695 ±0.1433 6.7680 ±0.0313 6.5256 ±0.1443 6.5807 ±0.1168 6.2864 ±0.1498 注:加粗表示本行最优结果。 从表5可以看出TRANS-OVK算法在数据集birds、business、genbase、image、reuters、scene上,以OE为评价指标是优于其他算法的。仅在数据集cal500和yeast上,TRANS-OVK算法不如PMFS算法。同时,在数据集emotion上,TRANS-OVK算法不如RMFRS算法。
表 5 在评价指标OE(↓)下TRANS-OVK算法与4个对比算法的实验结果比较Table 5 Comparison between TRANS-OVK algorithm and four comparison algorithms on OE(↓)数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.3688 ±0.0419 0.5698 ±0.0061 0.3893 ±0.0409 0.3629 ±0.0468 0.3397 ±0.0323 business 0.1265 ±0.0071 0.1336 ±0.0003 0.1246 ±0.0060 0.1245 ±0.0052 0.1213 ±0.0045 cal500 0.1289 ±0.0051 0.0965 ±0.0040 0.1286 ±0.0052 0.0900 ±0.0067 0.0935 ±0.0049 emotion 0.3445 ±0.0291 0.5495 ±0.0279 0.3391 ±0.0684 0.3739 ±0.0217 0.3434 ±0.0323 genbase 0.3358 ±0.2089 0.3446 ±0.2023 0.7122 ±0.0698 0.0139 ±0.0433 0.0155 ±0.0564 image 0.4705 ±0.0649 0.7153 ±0.0170 0.5285 ±0.0817 0.4701 ±0.0820 0.4605 ±0.0799 reuters 0.2627 ±0.0687 0.6224 ±0.0030 0.2783 ±0.0611 0.2329 ±0.0533 0.2279 ±0.0590 scene 0.4376 ±0.1121 0.9123 ±0.0420 0.6334 ±0.1914 0.4285 ±0.1260 0.4193 ±0.1203 yeast 0.2345 ±0.0152 0.2443 ±0.0016 0.2482 ±0.0112 0.2340 ±0.0079 0.2345 ±0.0115 注:加粗表示本行最优结果。 从表6可以看出ML-KNN算法在数据集cal500上的结果优于其他算法。在数据集image上,PMFS算法比TRANS-OVK算法和其他3个对比算法效果显著。在数据集yeast上,MDDM算法结果最优。在其余数据集上,本文所提出TRANS-OVK算法明显优于其他4个对比算法。
表 6 在评价指标HL(↓)下TRANS-OVK算法与4个对比算法的实验结果比较Table 6 Comparison between TRANS-OVK algorithm and four comparison algorithms on HL(↓)数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.0608 ±0.0033 0.0782 ±0.0020 0.0585 ±0.0024 0.0602 ±0.0054 0.0573 ±0.0021 business 0.0277 ±0.0008 0.0284 ±0.0000 0.0275 ±0.0007 0.0275 ±0.0005 0.0272 ±0.0000 cal500 0.1371 ±0.0009 0.1299 ±0.0008 0.1376 ±0.0012 0.1312 ±0.0011 0.1311 ±0.0012 emotion 0.2417 ±0.0128 0.3253 ±0.0078 0.2422 ±0.0294 0.2384 ±0.0144 0.2338 ±0.0207 genbase 0.0286 ±0.0158 0.0292 ±0.0155 0.0470 ±0.0041 0.0062 ±0.0025 0.0046 ±0.0041 image 0.2201 ±0.0172 0.2467 ±0.0007 0.2278 ±0.0140 0.2102 ±0.0188 0.2121 ±0.0192 reuters 0.0852 ±0.0197 0.1665 ±0.0010.0901 ±0.0132 0.0768 ±0.0119 0.0721 ±0.0109 scene 0.1493 ±0.0207 0.1915 ±0.0198 0.1695 ±0.0242 0.1476 ±0.0218 0.1434 ±0.0216 yeast 0.2012 ±0.0097 0.2291 ±0.0008 0.2086 ±0.0110 0.2045 ±0.0072 0.2039 ±0.0016 注:加粗表示本行最优结果。 表2~6分别给出了在AVP、HL、OE、CV和RL 5个评价指标下,5个多标记算法在9个多标记数据集下的实验结果比较。综上分析,可知本文所提TRANS-OVK算法的分类性能在绝大部分数据集上明显优于其他4个多标记对比算法。
5. 结束语
本文通过利用核对齐方法,从多标记数据集中学习了算子值核,并基于此核构建了有效的多标记学习预测模型。研究中,首先通过核对齐方法得到了样例级特征重要度分布,以此为基础构造了算子值核。然后,证明该算子值核不但是偏迹核而且是可变换算子值核,其对应的核矩阵中的每个分块都能有效刻画样例间标记相关性的交互信息。最后,基于可变换算子值核设计了多标记学习算法,并在9个多标记数据集上与4种高性能算法进行了对比实验。实验结果表明,所提出的算法在性能上显著优于对比算法,验证了其在多标记学习中的有效性和优越性。未来将从算法设计上优化现有算法。
-
表 1 多标记数据集
Table 1 Multi-label data set
数据集 样例数量 特征数量 标记数量 birds 645 260 20 business 5 000 438 30 cal500 502 68 174 emotion 593 72 6 genbase 662 1 185 27 image 2 000 135 5 reuters 2 000 243 7 scene 2 407 294 6 yeast 2 417 103 14 表 2 在评价指标AVP(↑)下TRANS-OVK算法与4个对比算法的实验结果比较
Table 2 Comparison between TRANS-OVK algorithm and four comparison algorithms on AVP(↑)
数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.7088 ±0.0213 0.5816 ±0.0048 0.6787 ±0.0363 0.7071 ±0.0327 0.7237 ±0.0139 business 0.8716 ±0.0071 0.8627 ±0.0003 0.8730 ±0.0063 0.8756 ±0.0047 0.8771 ±0.0042 cal500 0.4857 ±0.0049 0.4981 ±0.0030 0.4828 ±0.0044 0.4931 ±0.0039 0.4903 ±0.0056 emotion 0.7440 ±0.0172 0.5831 ±0.0123 0.7499 ±0.0509 0.7540 ±0.0166 0.7562 ±0.0358 genbase 0.7511 ±0.1520 0.7513 ±0.1471 0.4561 ±0.0553 0.9843 ±0.0313 0.9871 ±0.0295 image 0.6978 ±0.0424 0.5181 ±0.0088 0.6574 ±0.0547 0.6921 ±0.0558 0.6979 ±0.0357 reuters 0.8260 ±0.0416 0.6012 ±0.0020 0.8145 ±0.0417 0.8420 ±0.0356 0.8254 ±0.0269 scene 0.7448 ±0.0796 0.3181 ±0.0460 0.5897 ±0.1519 0.7416 ±0.0930 0.7522 ±0.0242 yeast 0.7446 ±0.0141 0.7102 ±0.0012 0.7332 ±0.0159 0.7487 ±0.0106 0.7543 ±0.0328 注:加粗表示本行最优结果。 表 3 在评价指标RL(↓)下TRANS-OVK算法与4个对比算法的实验结果比较
Table 3 Comparison between TRANS-OVK algorithm and four comparison algorithms on RL(↓)
数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.1152 ±0.0079 0.1861 ±0.0038 0.1363 ±0.0241 0.1217 ±0.0206 0.1153 ±0.0136 business 0.0427 ±0.0029 0.0487 ±0.0003 0.0418 ±0.0030 0.0410 ±0.0024 0.0401 ±0.0013 cal500 0.1853 ±0.0016 0.1813 ±0.0007 0.1860 ±0.0018 0.1819 ±0.0018 0.1810 ±0.0014 emotion 0.2276 ±0.0184 0.4265 ±0.0171 0.2229 ±0.0640 0.2031 ±0.0205 0.2173 ±0.0395 genbase 0.0617 ±0.0371 0.0580 ±0.0337 0.1547 ±0.0187 0.0083 ±0.0068 0.0078 ±0.0044 image 0.2609 ±0.0445 0.4622 ±0.0096 0.3016 ±0.0560 0.2681 ±0.0592 0.2546 ±0.0436 reuters 0.1155 ±0.0278 0.2791 ±0.0027 0.1238 ±0.0327 0.1059 ±0.0261 0.1123 ±0.0239 scene 0.1399 ±0.0674 0.6529 ±0.0734 0.2856 ±0.1457 0.1542 ±0.0792 0.1565 ±0.0697 yeast 0.1804 ±0.0095 0.2042 ±0.0010 0.1876 ±0.0119 0.1808 ±0.0084 0.1734 ±0.0114 注:加粗表示本行最优结果。 表 4 在评价指标CV(↓)下TRANS-OVK算法与4个对比算法的实验结果比较
Table 4 Comparison between TRANS-OVK algorithm and four comparison algorithms on CV(↓)
数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 3.3770 ±0.1749 4.8792 ±0.0798 3.8138 ±0.5010 3.5624 ±0.4262 3.5121 ±0.2160 business 2.3547 ±0.1105 2.5912 ±0.0134 2.3374 ±0.1073 2.3152 ±0.0869 2.2491 ±0.0502 cal500 132.1324 ±0.7145 128.9072 ±0.8342 132.4331 ±0.9138 127.5946 ±0.8853 126.6102 ±0.9114 emotion 2.1899 ±0.0936 3.2241 ±0.0920 2.1488 ±0.3141 2.0410 ±0.1136 2.0311 ±0.2382 genbase 2.3537 ±1.1237 1.9435 ±0.9042 4.9291 ±0.5734 0.6510 ±0.1924 0.6383 ±0.2169 image 1.2885 ±0.1689 2.0978 ±0.0394 1.4456 ±0.2168 1.3359 ±0.2248 1.2396 ±0.2005 reuters 0.8684 ±0.1638 1.8229 ±0.0168 0.9197 ±0.1958 0.8145 ±0.1564 0.8982 ±0.2319 scene 0.7333 ±0.3369 3.3339 ±0.3667 1.4602 ±0.7281 0.8667 ±0.3958 0.8164 ±0.2965 yeast 6.4695 ±0.1433 6.7680 ±0.0313 6.5256 ±0.1443 6.5807 ±0.1168 6.2864 ±0.1498 注:加粗表示本行最优结果。 表 5 在评价指标OE(↓)下TRANS-OVK算法与4个对比算法的实验结果比较
Table 5 Comparison between TRANS-OVK algorithm and four comparison algorithms on OE(↓)
数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.3688 ±0.0419 0.5698 ±0.0061 0.3893 ±0.0409 0.3629 ±0.0468 0.3397 ±0.0323 business 0.1265 ±0.0071 0.1336 ±0.0003 0.1246 ±0.0060 0.1245 ±0.0052 0.1213 ±0.0045 cal500 0.1289 ±0.0051 0.0965 ±0.0040 0.1286 ±0.0052 0.0900 ±0.0067 0.0935 ±0.0049 emotion 0.3445 ±0.0291 0.5495 ±0.0279 0.3391 ±0.0684 0.3739 ±0.0217 0.3434 ±0.0323 genbase 0.3358 ±0.2089 0.3446 ±0.2023 0.7122 ±0.0698 0.0139 ±0.0433 0.0155 ±0.0564 image 0.4705 ±0.0649 0.7153 ±0.0170 0.5285 ±0.0817 0.4701 ±0.0820 0.4605 ±0.0799 reuters 0.2627 ±0.0687 0.6224 ±0.0030 0.2783 ±0.0611 0.2329 ±0.0533 0.2279 ±0.0590 scene 0.4376 ±0.1121 0.9123 ±0.0420 0.6334 ±0.1914 0.4285 ±0.1260 0.4193 ±0.1203 yeast 0.2345 ±0.0152 0.2443 ±0.0016 0.2482 ±0.0112 0.2340 ±0.0079 0.2345 ±0.0115 注:加粗表示本行最优结果。 表 6 在评价指标HL(↓)下TRANS-OVK算法与4个对比算法的实验结果比较
Table 6 Comparison between TRANS-OVK algorithm and four comparison algorithms on HL(↓)
数据集 MDDM ML-KNN RMFRS PMFS TRANS-OVK birds 0.0608 ±0.0033 0.0782 ±0.0020 0.0585 ±0.0024 0.0602 ±0.0054 0.0573 ±0.0021 business 0.0277 ±0.0008 0.0284 ±0.0000 0.0275 ±0.0007 0.0275 ±0.0005 0.0272 ±0.0000 cal500 0.1371 ±0.0009 0.1299 ±0.0008 0.1376 ±0.0012 0.1312 ±0.0011 0.1311 ±0.0012 emotion 0.2417 ±0.0128 0.3253 ±0.0078 0.2422 ±0.0294 0.2384 ±0.0144 0.2338 ±0.0207 genbase 0.0286 ±0.0158 0.0292 ±0.0155 0.0470 ±0.0041 0.0062 ±0.0025 0.0046 ±0.0041 image 0.2201 ±0.0172 0.2467 ±0.0007 0.2278 ±0.0140 0.2102 ±0.0188 0.2121 ±0.0192 reuters 0.0852 ±0.0197 0.1665 ±0.0010.0901 ±0.0132 0.0768 ±0.0119 0.0721 ±0.0109 scene 0.1493 ±0.0207 0.1915 ±0.0198 0.1695 ±0.0242 0.1476 ±0.0218 0.1434 ±0.0216 yeast 0.2012 ±0.0097 0.2291 ±0.0008 0.2086 ±0.0110 0.2045 ±0.0072 0.2039 ±0.0016 注:加粗表示本行最优结果。 -
[1] BROUARD C, SHEN Huibin, DÜHRKOP K, et al. Fast metabolite identification with input output kernel regression[J]. Bioinformatics, 2016, 32(12): i28−i36. doi: 10.1093/bioinformatics/btw246 [2] KADRI H, RAKOTOMAMONJY A, PREUX P, et al. Multiple operator-valued kernel learning[J]. Advances in neural information processing systems, 2012, 25(3): 2429−2437. [3] KADRI H, DUFLOS E, PREUX P, et al. Operator-valued kernels for learning from functional response data[J]. Journal of machine learning research, 2016, 17(20): 1−54. [4] HUUSARI R, KADRI H. Entangled kernels-beyond separability[J]. Journal of machine learning research, 2021, 22(24): 1−40. [5] DINUZZO F, FUKUMIZU K, HSU C, et al. Low-rank output kernels[J]. Journal of machine learning research, 2011, 20: 181−196. [6] DINUZZO F, ONG C S, PILLONETTO G, et al. Learning output kernels with block coordinate descent[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue: PMLR, 2011: 49−56. [7] ÁLVAREZ M A, ROSASCO L, LAWRENCE N D. Kernels for vector-valued functions: a review[J]. Foundations and trends® in machine learning, 2012, 4(3): 195−266. [8] LIM N, D’ALCHÉ-BUC F, AULIAC C, et al. Operator-valued kernel-based vector autoregressive models for network inference[J]. Machine learning, 2015, 99(3): 489−513. doi: 10.1007/s10994-014-5479-3 [9] GREGOROVÁ M, KALOUSIS A, MARCHAND-MAILLET S. Forecasting and granger modelling with non-linear dynamical dependencies[C]//Machine Learning and Knowledge Discovery in Databases. Cham: Springer International Publishing, 2017: 544−558. [10] AUDIFFREN J, KADRI H. Online learning with multiple operator-valued kernels[EB/OL]. (2013−11−01)[2025−03−23]. https://arxiv.org/abs/1311.0222. [11] MINH H Q, BAZZANI L, MURINO V. A unifying framework in vector-valued reproducing kernel Hilbert spaces for manifold regularization and co-regularized multi-view learning[J]. Journal of machine learning research, 2016, 17(25): 1−72. [12] HUUSARI R, KADRI H, CAPPONI C. Multi-view metric learning in vector-valued kernel spaces[C]//International Conference on Artificial Intelligence and Statistics. Playa Blanca: PMLR, 2018: 415−424. [13] ZHANG Minling, ZHOU Zhihua. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern recognition, 2007, 40(7): 2038−2048. doi: 10.1016/j.patcog.2006.12.019 [14] ZHANG Yin, ZHOU Zhihua. Multilabel dimensionality reduction via dependence maximization[J]. ACM transactions on knowledge discovery from data, 2010, 4(3): 1−21. [15] LI Yuwen, LIN Yaojin, LIU Jinghua, et al. Feature selection for multi-label learning based on kernelized fuzzy rough sets[J]. Neurocomputing, 2018, 318: 271−286. doi: 10.1016/j.neucom.2018.08.065 [16] HASHEMI A, BAGHER DOWLATSHAHI M, NEZAMABADI-POUR H. An efficient Pareto-based feature selection algorithm for multi-label classification[J]. Information sciences, 2021, 581: 428−447. doi: 10.1016/j.ins.2021.09.052 [17] HASHEMI A, DOWLATSHAHI M B. MLCR: a fast multi-label feature selection method based on K-means and L2-norm[C]//2020 25th International Computer Conference, Computer Society of Iran. Tehran: IEEE, 2020: 1−7. [18] LIN Yaojin, HE Zhuoxin, GUO Lei, et al. Multi-label feature selection via positive or negative correlation[J]. IEEE transactions on emerging topics in computational intelligence, 2024, 8(1): 401−415. doi: 10.1109/TETCI.2023.3302653 [19] AFDHAL D, ANANTA K W, HARTONO W S. Adverse drug reactions prediction using multi-label linear discriminant analysis and multi-label learning[C]//2020 International Conference on Advanced Computer Science and Information Systems. Depok: IEEE, 2020: 69−76. [20] MULIMANI M, MESAROS A. Class-incremental learning for multi-label audio classification[C]//2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: IEEE, 2024: 916−920. [21] CHEN Jiayao, LI Shaoyuan. Class-aware learning for imbalanced multi-label classification[C]//2023 IEEE 5th International Conference on Civil Aviation Safety and Information Technology. Dali: IEEE, 2023: 903−907. [22] GE Yuhang, HU Xuegang, LI Peipei, et al. Multi-label learning with data self-augmentation[C]//Neural Information Processing. Singapore: Springer Nature Singapore, 2023: 336−347. [23] CHE Xiaoya, CHEN Degang, MI Jusheng. Learning instance-level label correlation distribution for multilabel classification with fuzzy rough sets[J]. IEEE transactions on fuzzy systems, 2023, 31(8): 2871−2884. doi: 10.1109/TFUZZ.2023.3248060 [24] CRISTIANINI N, SHAWE-TAYLOR J, ELISSEEFF A, et al. On kernel-target alignment[J]. Advances in neural information processing systems, 2002: 367−374. [25] DOMINGOS P. A few useful things to know about machine learning[J]. Communications of the ACM, 2012, 55(10): 78−87. doi: 10.1145/2347736.2347755 [26] ZHANG Junping, WANG Feiyue, WANG Kunfeng, et al. Data-driven intelligent transportation systems: a survey[J]. IEEE transactions on intelligent transportation systems, 2011, 12(4): 1624−1639. doi: 10.1109/TITS.2011.2158001 [27] AMRI M M, ABED S A. The data-driven future of healthcare: a review[J]. Mesopotamian journal of big data, 2023, 2023: 68−74. doi: 10.58496/MJBD/2023/010 [28] SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine learning, 2000, 39(2): 135−168. [29] WU Xizhu, ZHOU Zhihua. A unified view of multi-label performance measures[C]//International Conference on Machine Learning. Sydney: PMLR, 2017: 3780−3788. [30] SALEM N, HUSSEIN S. Data dimensional reduction and principal components analysis[J]. Procedia computer science, 2019, 163: 292−299. doi: 10.1016/j.procs.2019.12.111 [31] CHEN Linlin, CHEN Degang, WANG Hui. Alignment based kernel selection for multi-label learning[J]. Neural processing letters, 2019, 49(3): 1157−1177. doi: 10.1007/s11063-018-9863-z [32] CARMELI C, DE VITO E, TOIGO A. Vector valued reproducing kernel Hilbert spaces of integrable functions and mercer theorem[J]. Analysis and applications, 2006, 4(4): 377−408. doi: 10.1142/S0219530506000838 [33] SZABÓ Z, SRIPERUMBUDUR B K, PÓCZOS B, et al. Learning theory for distribution regression[J]. Journal of machine learning research, 2016, 17(152): 1−40.