标签分布学习(label distribution learning,LDL)是多标签学习(muti-label learning,MLL)的泛化[1-8]。MLL用标签集的部分标签来描述实例[9-11],LDL用标签集所有标签的表征程度构成的分布来描述实例[12-15]。文献[12]将年龄估计问题泛化到LDL中,降低了平均绝对误差(mean absolute deviation,MAE)。文献[13]将人群计数问题泛化到LDL中,提高了人群计数的准确率。
Geng等[1]提出了SA-IIS(specialized algorithm improithm lternative scaling)算法,将单个标签数据转换为分布数据,但未考虑标签的相关性。Jia等[16]提出了LDLLC(label distribution learning by exploiting label correlation)算法,使用皮尔逊相关系数描述了标签之间的相关性。Zheng等[17]提出了LDL-SCL(label distribution learning by exploiting sample correlation locally)算法,考虑实例之间的相关性。后2种方法显著提高了模型对标签分布的预测能力。
本文提出了一种三角距离相关性的标签分布学习算法(label distribution learning based on triangular distance correlation,T-LDL)。首先,令X和D分别表示特征矩阵和标签分布矩阵,构建距离映射矩阵θ描述X和D之间的映射关系。其次,设计新的相似度距离,以表征标签之间的相关性。最后,结合标签相关性,设计基于KL (kullback-leibler divergence)散度[18]的目标函数,利用从训练数据直接获取的X和D拟合θ以预测标签分布。
1 相关工作首先提出LDL的问题描述与运行实例,然后讨论流行的LDL算法及其目标函数。表1列出了本文的符号系统。
标签分布学习相对于单标签和多标签学习而言,以一种更自然的方式去标记实例,并且为它的每个可能的标签分配一个数值。下面给出它的形式化定义[1]。令X = Rq为q维输入空间,表示特征矩阵;Y = {y1, y2, …, yc}为完整标签集,c为标签的数量;D表示实际标签分布矩阵;给定一个训练集S = {X, D} = {{x1, d1}, {x2, d2},…,{xn, dn}},其中xi = [xi1xi2… xiq]∈X为第i个实例,di = [di1di2… dic]∈[0,1]c为xi对应的实际标签分布,dij是标签yj对xi的实际表征度,且
表2和表3为一个标签分布学习的运行实例,分别为特征矩阵X和实际标签分布矩阵D,这里S = {(x1,d1), (x2, d2), …, (x4, d4)},q = 5,c = 4。{天空,水,房屋,沙子,树木}5个特征表征了图1(a)中包含的信息。{森林,海洋,城市,沙漠}为完整标签集。以加粗行为例,x1 = [0.38, 0.35, 0.00, 0.12, 0.15],d1 = [0.16, 0.55, 0.10, 0.19],其中x11 = 0.38表示天空占图片面积的38%,d11 = 0.16表示森林描述该图片的程度为16%。
X和D之间的映射关系可以通过距离映射矩阵θ来描述。给定训练集后,LDL的目标为学习到该距离映射矩阵θ[16],再通过θ计算出预测标签分布矩阵P = {p1, p2, …, pi},其中pi = [pi1 pi2 … pic],pij为标签yj对xi的预测表征度,该表征度用最大熵模型[25]表示,如式(1)所示:
$ p({y_j}|{x_i};{{\theta }}){\rm{ = }}\frac{{\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)}}{{\displaystyle\sum\limits_{k = 1}^c {\exp \left(\displaystyle\sum\limits_{r = 1}^q {{{{\theta }}_{kr}}{x_{ir}}} \right)} }} $ | (1) |
$ {{{\theta }}^{\rm{*}}}{\rm{ = arg}}\mathop {{\rm{min}}}\limits_{{\theta }} \sum\limits_{i = 1}^n \sum\limits_{j = 1}^c \left({d_{ij}}\ln {\frac{d_{ij}}{p\left({y_j}|{x_i};{{\theta }}\right)}} \right) $ | (2) |
表4列出了4种流行的LDL算法及其目标函数,表中第一行的SA-IIS[1]和SA-BFGS(specialized algorithm effective quasi-newton)[1]两种算法使用相同的目标函数,它们均采用KL散度表征所有实例的真实分布与预测分布之间的差异。前者使用类似于改进迭代缩放的策略作为其优化方法,后者使用BFGS算法作为其优化方法。该目标函数缺少正则项,易导致欠拟合。
EDL(emotion distribution learning from texts)[26]通过采用新散度公式表征所有实例的真实分布与预测分布之间的差异,并增加2个约束项。如表4中第3行所示,等号右边第2项为距离映射矩阵θ的1-范数,以防止过拟合。第3项用不同标签的特征向量之差的2-范数,再乘以基于Plutchik的情绪轮得到的权重,表征不同标签之间的关系。该算法在情绪分类场景下表现较好。
2 本文工作常见的LDL算法的输入为特征矩阵X与实际标签分布矩阵D,输出为预测标签分布矩阵P,构建距离映射矩阵θ描述X和D之间的映射关系。为了得到更精准的预测标签分布矩阵P,设计目标函数是LDL算法工作的重点。本节重点介绍如何设计目标函数以及本文提出的T-LDL算法。
$ T({{\theta }}) = \sum\limits_{i{\rm{ = }}1}^n {\sum\limits_{j{\rm{ = }}1}^c {\left( {{d_{ij}}\ln \frac{{{d_{ij}}}}{{p\left( {{y_j}|{x_i};{{\theta }}} \right)}}} \right)} } + {\lambda _1}\sum\limits_{i{\rm{ = }}1}^c {\sum\limits_{j{\rm{ = }}1}^c {\eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} } $ | (3) |
2.1 标签相关性本文的亮点为结合三元相关性和距离相关性来描述标签之间的相关性,如式(4)所示:
$ \eta \left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = {\rm{sgn}}({\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)) \cdot {\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) $ | (4) |
式中:sgn(triangle(θi, θj))表征三元相关性,Dis(θi, θj)表征距离相关性。sgn(triangle(θi, θj))用三角距离来表征标签之间存在何种相关性,即正相关、不相关或负相关;Dis(θi, θj)用Euclidean距离[19]表征标签之间的相关程度。
由于使用皮尔逊相关系数时需要考虑任意2个向量是否存在线性关系,故提出一种不考虑该约束条件的新三角距离来衡量2个向量是否相关。这里,仅考虑2个向量θi、θj以及2个向量之差θi − θj,设计该三角距离,且使得其取值范围为[−1,1],如式(5)所示:
$ {\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 1 - \frac{{2\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{({{{\theta }}_{ik}} - {{{\theta }}_{jk}})}^2}} } }}{{\sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{ik}}^2} } + \sqrt {\displaystyle\sum\limits_{k = 1}^m {{{{\theta }}_{jk}}^2} } }} $ | (5) |
$ {\rm{sgn}}\left( {{\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right)} \right) = \left\{ \begin{array}{l} 1,\;\;{\rm{ 0 < triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) \leqslant 1 \\ 0,\;\;{\rm{ triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = 0 \\ {\rm{ - }}1,\;\;{\rm{ - 1}} \leqslant {\rm{triangle}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) < 0 \\ \end{array} \right. $ | (6) |
$ {\rm{Dis}}\left( {{{{\theta }}_i},{{{\theta }}_j}} \right) = \sqrt {\sum\limits_{k = 1}^m {{{\left( {{{{\theta }}_{ik}} - {{{\theta }}_{jk}}} \right)}^2}} } $ | (7) |
算法1 T-LDL算法
输入 X, D, ξ;
输出 p(y|x;θ)。
4)end if;
5)l ← l + 1;
6)通过式(1)计算 p(yj|xi;θ)。
3 实验及结果分析本节首先介绍实验使用的8个数据集和6个评价指标,再将本文提出的T-LDL算法与LDLLC[16]、PT-Bayes[1]、PT-SVM[1, 17]、AA-kNN[1, 4]、AA-BP[1]、SA-IIS[1, 16]、SA-BFGS(specialized algorithm effective quasi-newton)[1, 2]和EDL[26]8种主流的LDL算法进行比较,最后对实验结果进行讨论。
3.1 数据集表5列出了从芽殖酵母的8个生物学实验中收集得到的8个真实数据集[28]。实例为2 465个酵母基因,特征是长度为24的系统发育谱,标签为不同生物实验中的离散时间点,数量范围为4~18。
3.2 评价指标表6列出了评估LDL算法的6个评价指标的名称和公式。其中,pij是标签yj对xi的预测表征度;dij是标签yj对xi的实际表征度;“↓”表示“越小越好”;“↑”表示“越大越好”。
3.4 讨论各种算法通常在不同的数据集上具有不同的排名,表明每种算法都有其合适的应用场景,如EDL算法更适用于文本情绪分类场景。不同评价指标下同一算法的不同排名,反映了6项评价指标的多样性。在比较不同方法对新数据集的预测效果时,应综合考虑多个评价指标。
4 结束语为了进一步提高标签分布学习算法的预测性能,本文提出了三角距离相关性的标签分布学习算法。新的三角距离可以充分考虑向量本身和向量之差,能更好地描述标签之间的相关性。实验结果表明,本文的方法比大多数现有的方法表现更好。
