﻿ 三角距离相关性的标签分布学习
 智能系统学报  2021, Vol. 16 Issue (3): 449-458  DOI: 10.11992/tis.202001027 0

HUANG Yuting, XU Yuanyuan, ZHANG Hengru, et al. Label distribution learning based on triangular distance correlation[J]. CAAI Transactions on Intelligent Systems, 2021, 16(3): 449-458. DOI: 10.11992/tis.202001027.

Label distribution learning based on triangular distance correlation
HUANG Yuting , XU Yuanyuan , ZHANG Hengru , MIN Fan
College of Computer Science, Southwest Petroleum University, Chengdu 610500, China
Abstract: Aiming at the representation problem of label correlation, a label distribution learning algorithm based on triangular distance correlation is proposed in this paper. First, a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix. Then a new triangle distance is designed to characterize the correlation between the labels. Finally, based on the label correlation, the Kullback-Leibler divergence-based objective function is designed. Results on eight datasets show that the proposed algorithm is superior in six evaluation measures in terms of accuracy compared with eight mainstream algorithms.
Key words: label distribution learning    label correlation    triangular distance    distance mapping matrix    multi-label learning    maximum entropy model    Kullback-Leibler divergence    L-BFGS method

Geng等[1]提出了SA-IIS(specialized algorithm improithm lternative scaling)算法，将单个标签数据转换为分布数据，但未考虑标签的相关性。Jia等[16]提出了LDLLC(label distribution learning by exploiting label correlation)算法，使用皮尔逊相关系数描述了标签之间的相关性。Zheng等[17]提出了LDL-SCL(label distribution learning by exploiting sample correlation locally)算法，考虑实例之间的相关性。后2种方法显著提高了模型对标签分布的预测能力。

1 相关工作

1.1 LDL问题描述

1.2 运行实例

XD之间的映射关系可以通过距离映射矩阵θ来描述。给定训练集后，LDL的目标为学习到该距离映射矩阵θ[16]，再通过θ计算出预测标签分布矩阵P = {p1, p2, …, pi}，其中pi = [pi1 pi2pic]，pij为标签yjxi的预测表征度，该表征度用最大熵模型[25]表示，如式(1)所示：

 $p({y_j}|{x_i};{{\theta }}){\rm{ = }}\frac{{\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)}}{{\displaystyle\sum\limits_{k = 1}^c {\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)} }}$ (1)

 ${{{\theta }}^{\rm{*}}}{\rm{ = arg}}\mathop {{\rm{min}}}\limits_{{\theta }} \sum\limits_{i = 1}^n \sum\limits_{j = 1}^c \left({d_{ij}}\ln {\frac{d_{ij}}{p\left({y_j}|{x_i};{{\theta }}\right)}} \right)$ (2)
1.3 已有的LDL算法

LDLLC[16]在IIS-LLD算法的目标函数基础上增加了正则项和标签相关性项。如表4中第2行所示，等号右边第2项为距离映射矩阵θ的F-范数，以防止过拟合。第3项为符号函数与不同距离共同决定的标签相关性项，其中符号函数由皮尔逊相关系数决定。但皮尔逊相关系数存在“2个输入向量间应有线性关系”的约束条件，而距离映射矩阵θ中的任意2个向量要满足该条件较为困难。

EDL(emotion distribution learning from texts)[26]通过采用新散度公式表征所有实例的真实分布与预测分布之间的差异，并增加2个约束项。如表4中第3行所示，等号右边第2项为距离映射矩阵θ的1-范数，以防止过拟合。第3项用不同标签的特征向量之差的2-范数，再乘以基于Plutchik的情绪轮得到的权重，表征不同标签之间的关系。该算法在情绪分类场景下表现较好。

2 本文工作

 $T({{\theta }}) = \sum\limits_{i{\rm{ = }}1}^n {\sum\limits_{j{\rm{ = }}1}^c {\left( {{d_{ij}}\ln \frac{{{d_{ij}}}}{{p\left( {{y_j}|{x_i};{{\theta }}} \right)}}} \right)} } + {\lambda _1}\sum\limits_{i{\rm{ = }}1}^c {\sum\limits_{j{\rm{ = }}1}^c {\eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} }$ (3)

2.1 标签相关性

 $\eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = {\rm{sgn}}({\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)) \cdot {\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)$ (4)

 ${\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 1 - \frac{{2\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{({{{\theta }}_{ik}} - {{{\theta }}_{jk}})}^2}} } }}{{\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{ik}}^2} } + \sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{jk}}^2} } }}$ (5)

 ${\rm{sgn}}\left( {{\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} \right) = \left\{ \begin{array}{l} 1,\;\;{\rm{ 0 < triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) \leqslant 1 \\ 0,\;\;{\rm{ triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 0 \\ {\rm{ - }}1,\;\;{\rm{ - 1}} \leqslant {\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) < 0 \\ \end{array} \right.$ (6)

 ${\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = \sqrt {\sum\limits_{k = 1}^m {{{\left( {{{{\theta }}_{ik}} - {{{\theta }}_{jk}}} \right)}^2}} }$ (7)
2.2 本文提出的T-LDL算法

T-LDL描述见算法1。首先将距离映射矩阵θ(0)和逆拟Hessian矩阵B(0)初始化为单位矩阵，再通过式(3)计算初次目标函数的梯度 ${{\nabla}}$ T(θ(0))。进入迭代，收敛条件为|| ${{\nabla}}$ T(θ(l))||2 < ξ。当不满足收敛条件时，采用L-BFGS方法[27]优化并更新θB。当满足收敛条件时，计算标签yjxi的预测表征度p(yj|xi;θ)。

1)初始化距离映射矩阵θ(0)和逆拟Hessian矩阵B(0)

2)通过式(3)计算梯度 ${{\nabla}}$ T(θ(0))；

3)如果|| ${{\nabla}}$ T(θ(l))||2 > ξ，使用L-BFGS方法[27]优化更新θB

4)end if；

5)ll + 1；

6)通过式(1)计算 p(yj|xi;θ)。

3 实验及结果分析

3.1 数据集

Alpha数据集记录在α因子的影响下酵母在有丝分裂期间的基因表达情况；Cdc数据集记录酵母在细胞分裂期间停滞的cdc-15基因表达情况；Elu数据集记录酵母经离心淘洗后的基因表达情况；Diau数据集记录酵母在双峰转换过程中的基因表达情况；Heat数据集记录酵母在经过高温冲击后的基因表达情况；Spo数据集记录酵母在孢子形成过程中的基因表达情况；Cold数据集记录酵母经低温处理后的基因表达情况；Dtt数据集记录酵母经还原剂处理后的基因表达情况[28]

3.2 评价指标

3.3 实验结果

3.4 讨论

4 结束语

