  智能系统学报  2021, Vol. 16 Issue (3): 449-458  DOI: 10.11992/tis.202001027


黄雨婷, 徐媛媛, 张恒汝, 等. 三角距离相关性的标签分布学习[J]. 智能系统学报, 2021, 16(3): 449-458. DOI: 10.11992/tis.202001027.
HUANG Yuting, XU Yuanyuan, ZHANG Hengru, et al. Label distribution learning based on triangular distance correlation[J]. CAAI Transactions on Intelligent Systems, 2021, 16(3): 449-458. DOI: 10.11992/tis.202001027.




黄雨婷 , 徐媛媛 , 张恒汝 , 闵帆     
西南石油大学 计算机科学学院,四川 成都 610500
关键词标签分布学习    标签相关性    三角距离    距离映射矩阵    多标签学习    最大熵模型    Kullback-Leibler散度    L-BFGS方法    
Label distribution learning based on triangular distance correlation
HUANG Yuting , XU Yuanyuan , ZHANG Hengru , MIN Fan     
College of Computer Science, Southwest Petroleum University, Chengdu 610500, China
Abstract: Aiming at the representation problem of label correlation, a label distribution learning algorithm based on triangular distance correlation is proposed in this paper. First, a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix. Then a new triangle distance is designed to characterize the correlation between the labels. Finally, based on the label correlation, the Kullback-Leibler divergence-based objective function is designed. Results on eight datasets show that the proposed algorithm is superior in six evaluation measures in terms of accuracy compared with eight mainstream algorithms.
Key words: label distribution learning    label correlation    triangular distance    distance mapping matrix    multi-label learning    maximum entropy model    Kullback-Leibler divergence    L-BFGS method    

标签分布学习(label distribution learning,LDL)是多标签学习(muti-label learning,MLL)的泛化[1-8]。MLL用标签集的部分标签来描述实例[9-11],LDL用标签集所有标签的表征程度构成的分布来描述实例[12-15]。文献[12]将年龄估计问题泛化到LDL中,降低了平均绝对误差(mean absolute deviation,MAE)。文献[13]将人群计数问题泛化到LDL中,提高了人群计数的准确率。

Geng等[1]提出了SA-IIS(specialized algorithm improithm lternative scaling)算法,将单个标签数据转换为分布数据,但未考虑标签的相关性。Jia等[16]提出了LDLLC(label distribution learning by exploiting label correlation)算法,使用皮尔逊相关系数描述了标签之间的相关性。Zheng等[17]提出了LDL-SCL(label distribution learning by exploiting sample correlation locally)算法,考虑实例之间的相关性。后2种方法显著提高了模型对标签分布的预测能力。

本文提出了一种三角距离相关性的标签分布学习算法(label distribution learning based on triangular distance correlation,T-LDL)。首先,令XD分别表示特征矩阵和标签分布矩阵,构建距离映射矩阵θ描述XD之间的映射关系。其次,设计新的相似度距离,以表征标签之间的相关性。最后,结合标签相关性,设计基于KL (kullback-leibler divergence)散度[18]的目标函数,利用从训练数据直接获取的XD拟合θ以预测标签分布。


1 相关工作


表 1 符号系统 Tab.1 Notations
1.1 LDL问题描述

标签分布学习相对于单标签和多标签学习而言,以一种更自然的方式去标记实例,并且为它的每个可能的标签分配一个数值。下面给出它的形式化定义[1]。令X = Rqq维输入空间,表示特征矩阵;Y = {y1, y2, …, yc}为完整标签集,c为标签的数量;D表示实际标签分布矩阵;给定一个训练集S = {X, D} = {{x1, d1}, {x2, d2},…,{xn, dn}},其中xi = [xi1xi2xiq]∈X为第i个实例,di = [di1di2dic]∈[0,1]cxi对应的实际标签分布,dij是标签yjxi的实际表征度,且 $\displaystyle\sum\limits_{j = 1}^c {{d_{ij}}} = 1$

1.2 运行实例


图 1 MLL与LDL的比较 Fig. 1 Differences between MLL and LDL

表2表3为一个标签分布学习的运行实例,分别为特征矩阵X和实际标签分布矩阵D,这里S = {(x1,d1), (x2, d2), …, (x4, d4)},q = 5,c = 4。{天空,水,房屋,沙子,树木}5个特征表征了图1(a)中包含的信息。{森林,海洋,城市,沙漠}为完整标签集。以加粗行为例,x1 = [0.38, 0.35, 0.00, 0.12, 0.15],d1 = [0.16, 0.55, 0.10, 0.19],其中x11 = 0.38表示天空占图片面积的38%,d11 = 0.16表示森林描述该图片的程度为16%。

表 2 特征矩阵X Tab.2 Feature matrix X
表 3 标签分布矩阵D Tab.3 Label distribution matrix D

XD之间的映射关系可以通过距离映射矩阵θ来描述。给定训练集后,LDL的目标为学习到该距离映射矩阵θ[16],再通过θ计算出预测标签分布矩阵P = {p1, p2, …, pi},其中pi = [pi1 pi2pic],pij为标签yjxi的预测表征度,该表征度用最大熵模型[25]表示,如式(1)所示:

$ p({y_j}|{x_i};{{\theta }}){\rm{ = }}\frac{{\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)}}{{\displaystyle\sum\limits_{k = 1}^c {\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)} }} $ (1)


$ {{{\theta }}^{\rm{*}}}{\rm{ = arg}}\mathop {{\rm{min}}}\limits_{{\theta }} \sum\limits_{i = 1}^n \sum\limits_{j = 1}^c \left({d_{ij}}\ln {\frac{d_{ij}}{p\left({y_j}|{x_i};{{\theta }}\right)}} \right) $ (2)
1.3 已有的LDL算法

表4列出了4种流行的LDL算法及其目标函数,表中第一行的SA-IIS[1]和SA-BFGS(specialized algorithm effective quasi-newton)[1]两种算法使用相同的目标函数,它们均采用KL散度表征所有实例的真实分布与预测分布之间的差异。前者使用类似于改进迭代缩放的策略作为其优化方法,后者使用BFGS算法作为其优化方法。该目标函数缺少正则项,易导致欠拟合。

表 4 已有的4种流行的LDL算法及其目标函数 Tab.4 Objective functions of four popular LDL algorithms


EDL(emotion distribution learning from texts)[26]通过采用新散度公式表征所有实例的真实分布与预测分布之间的差异,并增加2个约束项。如表4中第3行所示,等号右边第2项为距离映射矩阵θ的1-范数,以防止过拟合。第3项用不同标签的特征向量之差的2-范数,再乘以基于Plutchik的情绪轮得到的权重,表征不同标签之间的关系。该算法在情绪分类场景下表现较好。

2 本文工作



$ T({{\theta }}) = \sum\limits_{i{\rm{ = }}1}^n {\sum\limits_{j{\rm{ = }}1}^c {\left( {{d_{ij}}\ln \frac{{{d_{ij}}}}{{p\left( {{y_j}|{x_i};{{\theta }}} \right)}}} \right)} } + {\lambda _1}\sum\limits_{i{\rm{ = }}1}^c {\sum\limits_{j{\rm{ = }}1}^c {\eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} } $ (3)


2.1 标签相关性


$ \eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = {\rm{sgn}}({\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)) \cdot {\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) $ (4)

式中:sgn(triangle(θi, θj))表征三元相关性,Dis(θi, θj)表征距离相关性。sgn(triangle(θi, θj))用三角距离来表征标签之间存在何种相关性,即正相关、不相关或负相关;Dis(θi, θj)用Euclidean距离[19]表征标签之间的相关程度。

由于使用皮尔逊相关系数时需要考虑任意2个向量是否存在线性关系,故提出一种不考虑该约束条件的新三角距离来衡量2个向量是否相关。这里,仅考虑2个向量θiθj以及2个向量之差θi θj,设计该三角距离,且使得其取值范围为[−1,1],如式(5)所示:

$ {\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 1 - \frac{{2\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{({{{\theta }}_{ik}} - {{{\theta }}_{jk}})}^2}} } }}{{\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{ik}}^2} } + \sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{jk}}^2} } }} $ (5)


$ {\rm{sgn}}\left( {{\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} \right) = \left\{ \begin{array}{l} 1,\;\;{\rm{ 0 < triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) \leqslant 1 \\ 0,\;\;{\rm{ triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 0 \\ {\rm{ - }}1,\;\;{\rm{ - 1}} \leqslant {\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) < 0 \\ \end{array} \right. $ (6)



$ {\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = \sqrt {\sum\limits_{k = 1}^m {{{\left( {{{{\theta }}_{ik}} - {{{\theta }}_{jk}}} \right)}^2}} } $ (7)
2.2 本文提出的T-LDL算法

T-LDL描述见算法1。首先将距离映射矩阵θ(0)和逆拟Hessian矩阵B(0)初始化为单位矩阵,再通过式(3)计算初次目标函数的梯度 ${{\nabla}}$ T(θ(0))。进入迭代,收敛条件为|| ${{\nabla}} $ T(θ(l))||2 < ξ。当不满足收敛条件时,采用L-BFGS方法[27]优化并更新θB。当满足收敛条件时,计算标签yjxi的预测表征度p(yj|xi;θ)。

算法1 T-LDL算法

输入  X, D, ξ;

输出  p(y|x;θ)。


2)通过式(3)计算梯度 ${{\nabla}} $ T(θ(0));

3)如果|| ${{\nabla}}$ T(θ(l))||2 > ξ,使用L-BFGS方法[27]优化更新θB

4)end if;

5)ll + 1;

6)通过式(1)计算 p(yj|xi;θ)。

3 实验及结果分析

本节首先介绍实验使用的8个数据集和6个评价指标,再将本文提出的T-LDL算法与LDLLC[16]、PT-Bayes[1]、PT-SVM[1, 17]、AA-kNN[1, 4]、AA-BP[1]、SA-IIS[1, 16]、SA-BFGS(specialized algorithm effective quasi-newton)[1, 2]和EDL[26]8种主流的LDL算法进行比较,最后对实验结果进行讨论。

3.1 数据集

表5列出了从芽殖酵母的8个生物学实验中收集得到的8个真实数据集[28]。实例为2 465个酵母基因,特征是长度为24的系统发育谱,标签为不同生物实验中的离散时间点,数量范围为4~18。

表 5 数据集 Tab.5 Datasets


3.2 评价指标


表 6 LDL算法的评价指标 Tab.6 Evaluation measures for the LDL algorithms
3.3 实验结果


表 7 Alpha数据集上的实验结果 Tab.7 Experimental results on the Alpha dataset
表 8 Cdc数据集上的实验结果 Tab.8 Experimental results on the Cdc dataset
表 9 Elu数据集上的实验结果 Tab.9 Experimental results on the Elu dataset
表 10 Diau数据集上的实验结果 Tab.10 Experimental results on the Diau dataset
表 11 Heat数据集上的实验结果 Tab.11 Experimental results on the Heat dataset
表 12 Spo数据集上的实验结果 Tab.12 Experimental results on the Spo dataset
表 13 Cold数据集上的实验结果 Tab.13 Experimental results on the Cold dataset
表 14 Dtt数据集上的实验结果 Tab.14 Experimental results on the Dtt dataset


3.4 讨论



4 结束语



