概率条件下基于双目标交替优化的知识表示模型

引用本文

张欣, 王振友. 概率条件下基于双目标交替优化的知识表示模型[J]. 广东工业大学学报, 2022, 39(4): 24-31. DOI: 10.12052/gdutxb.210062.

Zhang Xin, Wang Zhen-you. A Knowledge Representation Model Based on Bi-Objective Alternate Optimization Under Probability[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2022, 39(4): 24-31. DOI: 10.12052/gdutxb.210062.

基金项目:

广东省基础与应用基础研究基金资助项目(2020B1515310001)

作者简介:

张欣(1998–)，女，硕士研究生，主要研究方向为数据分析、算法设计与分析。

通信作者

王振友(1979–)，男，教授，博士，主要研究方向为医学影像学、最优化理论及应用、数值计算等，E-mail：zywang@gdut.edu.cn

文章历史

收稿日期：2021-04-25

Contents Abstract Full text Figures/Tables PDF

概率条件下基于双目标交替优化的知识表示模型

张欣, 王振友

广东工业大学数学与统计学院，广东广州 510520

收稿日期：2021-04-25

基金项目：广东省基础与应用基础研究基金资助项目(2020B1515310001)

作者简介：张欣(1998–)，女，硕士研究生，主要研究方向为数据分析、算法设计与分析。

通信作者：王振友(1979–)，男，教授，博士，主要研究方向为医学影像学、最优化理论及应用、数值计算等，E-mail：zywang@gdut.edu.cn.

摘要: 针对TransD模型参数多和实体两种表示间没有关联的问题，提出一种改进的知识表示模型PTransD。通过减少实体投影数,并对实体进行聚类来减少参数量，同时利用K-L(Kullback-Leibler)散度限制实体投影和对应实体类，使其概率分布相同。在模型训练时，对三元组损失和K-L损失交替优化，从类间距大的实体类中替换实体，提高负例质量。最后，在知识图谱数据集上进行三元组分类和链接预测实验。结果表明，该模型的性能在各项指标上均有明显提高，可以应用于知识图谱的完善和推理等。

关键词: 知识图谱表示学习交替优化三元组分类链接预测

A Knowledge Representation Model Based on Bi-Objective Alternate Optimization Under Probability

Zhang Xin, Wang Zhen-you

School of Mathematics and Statistics, Guangdong University of Technology, Guangzhou 510520, China

Abstract: Aiming at the problem that the TransD model has many parameters and the two representations of entities are not related, an improved knowledge representation model PTransD is proposed, which reduces the number of parameters by reducing the number of entity projections and clustering entities, while using K-L (Kullback-Leibler ) The divergence limits the entity projection to the same probability distribution as the corresponding entity class. During model training, the triple loss and K-L loss are alternately optimized, and the entities in the classes with large spacing between the entities are replaced to improve the quality of negative examples. Finally, based on the experimental results of triple classification and link prediction on the knowledge graph data set, the performance has been significantly improved in various indicators. It can be applied to the perfection and reasoning of knowledge map.

Key words: knowledge graph representation learning alternate optimization triple classification link prediction

1960年，Quillian在进行自然语言理解的应用研究时提出了语义网络概念，侧重描述概念间语义关系，这是知识图谱的起源。语义网和链接数据是Tim Berners Lee分别在1998年和2006年提出的，是知识图谱发展的基础。随后，学者们构建了大量大规模知识库，包括常识知识库Cyc^[1]，词典知识库WordNet^[2]和世界开源知识库FreeBase^[3]等。2012年，知识图谱的概念由Google正式提出，主要侧重强调数据或事物之间的关联，随后亚马逊的Amazon Neptune、微软的多模数据库CosmosDB以及腾讯云的“星图”等陆续出现。

知识图谱是结构化的语义知识库，以三元组( $ \mathcal{h} $ , $ \mathcal{r} $ , $ \mathcal{t} $ )或图数据库的形式存储在网络中，其中实体 $ \mathcal{h} $ 、 $ \mathcal{t} $ 和关系 $ \mathcal{r} $ 以知识网络的形式来表示。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用。知识表示学习是指对知识库中的实体和关系进行学习，旨在将研究对象的语义信息表示为稠密低维实值向量。这能够有效解决计算效率低和数据稀疏问题，可以用于知识获取、知识推理、推荐和问答等任务中^[4-6]。

知识表示学习主要包括基于平均距离的模型、语义匹配模型以及融合多源信息的模型等^[7]。受word2vec模型^[8]的“词向量在语义空间中具有平移不变性”启发，Bordes等^[9]提出了TransE模型。TransE简单高效，但是在处理复杂关系时性能不佳。针对TransE的局限性，研究者们相继提出了TransE的很多变体，其中包括TransR^[10]和TransD模型^[11]。TransD是在TransR基础上引入了投影向量的概念，这使模型参数量增加了一倍，且实体两种表示之间的关系不明晰，模型仍存在不可解释性等问题。

为此，本文针对TransD模型的缺陷，提出了一种概率分布下双目标交替优化的知识表示模型(以下简称PTransD)。首先，通过聚类算法构造 $ k $ 个实体类与实体投影一一对应，定义实体类中心为每一类实体语义向量的均值，采用“实体类中心与实体投影的欧氏距离最短则归属一类”的原则来判断实体投影所对应的实体类，这大大减少了模型参数的数目。然后本文采用概率代替欧氏距离来表示相似性，借鉴概率分布的原理，用K-L散度值来衡量该任务的损失。最后将三元组损失学习到的实体表示作为K-L散度损失的先验知识，双目标交替优化^[12]训练得到实体和关系的向量表示。在模型训练时，基于伯努利采样方法，从类间距大的实体类中选择实体进行负采样，并在数据集上进行实验分析，验证模型的有效性。

1 相关工作

平均距离模型是知识表示学习中的代表模型，采用基于距离的评分函数，用头实体通过关系进行翻译之后的实体和尾实体之间的距离来测量事实三元组的合理性，其中较有代表性的方法包括TransE、TransH^[13]、TransR、TransD、TransF^[14]以及TransGH^[15]等。

词向量模型word2vec使每个词可以映射到一个向量，以表示词对词之间的关系。Bordes等^[9]受到此现象启发，提出TransE模型。对于每个三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )，关系向量r是从头实体向量h到尾实体向量t的一个翻译操作。TransE提出 $ {\boldsymbol{h}} +{\boldsymbol{r}} - {\boldsymbol{t}} \approx {\bf{0}} $ 的观点，要求正确的尾实体t分布在h+r附近，定义得分函数为 $ f({\mathcal{h}},{\mathcal{r}},{\mathcal{t}}) = {\left\| {{\boldsymbol{h}} + {\boldsymbol{r}} - {\boldsymbol{t}}} \right\|_{{{L}_1}/{{L}_2}}} $ ，L₁为1范数，L₂为2范数。TransE模型参数少，计算简单，缺点是在遇到自反、一对多、多对一以及多对多等复杂关系时，不同实体在同一关系中会有相同的向量表示。

TransH克服了TransE的上述缺点，将实体和关系嵌入到统一的向量空间，把实体投影到关系的超平面中进行翻译，即 ${{\boldsymbol{h}}_ \bot } = {\boldsymbol{h}} - {{\boldsymbol{w}}_{\mathcal{r}}^{\text{T}}}{\boldsymbol{h}}{{\boldsymbol{w}}_{\mathcal{r}}}$ ， ${{\boldsymbol{t}}_ \bot } = {\boldsymbol{t}} - {{\boldsymbol{w}}_{\mathcal{r}}^{\text{T}}}{\boldsymbol{t}}{{\boldsymbol{w}}_{\mathcal{r}}}$ ， $ {{\boldsymbol{w}}_{\mathcal{r}}} $ 为关系超平面的单位法向量； ${{\boldsymbol{h}}_ \bot } $ 为h在实体空间翻译以后在关系空间里的向量表示； ${{\boldsymbol{t}}_ \bot } $ 为t在实体空间翻译以后在关系空间里的向量表示。定义得分函数为 $ f({\mathcal{h}},{\mathcal{r}},{\mathcal{t}}) = \left\| {{{\boldsymbol{h}}_ \bot }{\text{ + }}{\boldsymbol{r}} - {{\boldsymbol{t}}_ \bot }} \right\| $ 。TransH使实体在不同关系中有不同的表示，且没有增加模型的复杂度和训练难度。

TransE和TransH都是在同一空间中考虑实体和关系，然而从本质上看实体和关系是不同的客观事物，在同一空间中表示是不合理的。TransR提出不同的关系关注实体的不同属性，应具有不同的语义空间，将不同关系下的实体投影到不同的语义空间中进行翻译，即 $ {{\boldsymbol{h}}_ \bot } = {\boldsymbol{h}}{{\boldsymbol{M}}_{\mathcal{r}}} $ ， $ {{\boldsymbol{t}}_ \bot } = {\boldsymbol{ t}}{{\boldsymbol{M}}_{\mathcal{r}}} $ ， $ {{\boldsymbol{M}}_{\mathcal{r}}} $ 为只和关系 $ {\mathcal{r}} $ 有关的投影矩阵。

为解决投影矩阵只和关系有关的问题，TransD提出每个实体和关系都有两种表示，一种是捕获实体和关系的含义，表示为 $ {\boldsymbol{h}},{\boldsymbol{r}},{\boldsymbol{t}} $ ；另一种是构造投影矩阵，表示为 $ {{\boldsymbol{h}}_{\rm{pj}}},{{\boldsymbol{r}}_{\rm{pj}}},{{\boldsymbol{t}}_{\rm{pj}}} $ ，则投影矩阵 ${{\boldsymbol{M}}_{{\mathcal{rh}}}} = {{\boldsymbol{r}}_{\rm{pj}}}{{\boldsymbol{h}}_{\rm{pj}}^{\text{T}}} + {{\boldsymbol{I}}^{m \times n}}$ ， ${{\boldsymbol{M}}_{{\mathcal{rt}}}} = {{\boldsymbol{r}}_{\rm{pj}}}{{\boldsymbol{t}}_{\rm{pj}}^{\text{T}}} + {{\boldsymbol{I}}^{m \times n}}$ ，其中 $ {\boldsymbol{h}},{{\boldsymbol{h}}_{\rm{pj}}},{\boldsymbol{t}},{{\boldsymbol{t}}_{\rm{pj}}} \in {\mathbb{R}^n} $ 和 $ {\boldsymbol{r}},{{\boldsymbol{r}}_{\rm{pj}}} \in {\mathbb{R}^m} $ ， $ {{\boldsymbol{I}}^{m \times n}} $ 表示行列下角标值相等时元素为1，否则为0的一个 $ m \times n $ 矩阵。TransD中实体两种表示之间没有关系，但实验结果显示同一类实体具有相似的投影向量，故实体投影和实体语义向量间应存在一定联系。TransD仅使用了向量运算，计算复杂度较小，适用于大规模知识图谱。

TransR认为每个关系都有一个关系空间，忽略了关系空间的结构，例如关系“出生地”可以推断出“国籍”。针对这一缺陷，TransF建模投影矩阵的基子空间来减轻关系投影的负担，将投影矩阵分解为关系空间的坐标矩阵和基张量的积，即 ${{\boldsymbol{M}}_{{\mathcal{rh}}}}{\text{ = }} \displaystyle\sum\nolimits_i {{\alpha _{\mathcal{r}}^{\left( i \right)}}{U^{\left( i \right)}}} {\text{ + }} {{\boldsymbol{I}}^{m \times n}}$ ， ${{\boldsymbol{M}}_{{\mathcal{rt}}}}{\text{ = }}\displaystyle\sum\nolimits_i {{\beta _{\mathcal{r}}^{\left( i \right)}}{V^{\left( i \right)}}} {\text{ + }}{{\boldsymbol{I}}^{m \times n}}$ ， $ {U^{\left( i \right)}} $ ， $ {V^{\left( i \right)}} $ 分别为第i个头尾实体的关系基空间， $\alpha _r^{\left( i \right)}$ ， $\beta _r^{\left( i \right)} $ 分别为对应的关系系数。

TransH、TransR和TransD都考虑了复杂关系的映射属性，但计算量大。TransGH在TransH的基础上提出广义关系特定超平面的概念，使用一组基向量来代替单个法向量，得到投影实体向量为 ${{\boldsymbol{h}}_ \bot }{\text{ = }} {\boldsymbol{h}} - \displaystyle\sum\nolimits_i {{{(\boldsymbol{w}_{\mathcal{r}}^i)^{\rm{T}}}}{\boldsymbol{h}}{{\boldsymbol{w}}_{\mathcal{r}}^i}}$ ， ${{\boldsymbol{t}}_ \bot }{\text{ = }}{\boldsymbol{t}} - \displaystyle\sum\nolimits_i {{(\boldsymbol{w}_{\mathcal{r}}^i)^{\rm{T}}}{\boldsymbol{t}}{{\boldsymbol{w}}_{\mathcal{r}}^i}}$ ,其中 $ {\boldsymbol{w}}_{{\mathcal{r}}}^{i} $ 表示关系超平面法向量的第i个基向量。

表1列出了以上所有提及的知识表示模型的复杂度。PTransD在时间复杂度相等的情况下，空间复杂度远小于TransD，而相比于TransH，PTransD的复杂度相差不大，且实验结果和性能较好，验证详见第3节。

表 1 各嵌入模型的复杂度 Table 1 Complexity of several embedding models

模型名称	参数	时间复杂度¹⁾
TransE^[9]	$O({N_{\rm{e} } }m + {N_{\rm{r} } }n)(m = n)$ ²⁾	$O({N_{\rm{t} } })$ ³⁾
TransR^[10]	$O({N_{\rm{e} } }m + {N_{\rm{r} } }(m + 1)n)$	$O(2mn{N_{\rm{t} } })$
TransD^[11]	$O(2{N_{\rm{e} } }m + 2{N_{\rm{r} } }n)$	$O(2n{N_{\rm{t} } })$
TransH^[13]	$O({N_{\rm{e} } }m + 2{N_{\rm{r} } }n)(m = n)$	$O(2m{N_{\rm{t} } })$
TransF^[14]	$O({N_{\rm{e} } }m + {N_{\rm{r} } }(m + 2v)n),v \ll m$	$O(2vmn{N_{\rm{t} } })$
TransGH^[15]	$O({N_{\rm{e} } }m + {N_{\rm{r} } }\left( {1{\text{ + } }v} \right)n)(m = n),v \ll m$ ⁴⁾	$O(2vm{N_{\rm{t} } })$
PTransD	$O(({N_{\rm{e} } } + k)m + 2{N_{\rm{r} } }n)$ ⁵⁾	$O(2n{N_{\rm{t} } })$
1) 时间复杂度表示一次迭代中乘法操作的数量。　　2) ${N_{\rm{e} } }$ 和 ${N_{\rm{r} } }$ 分别代表实体和关系的数量，m和n分别表示实体空间和关系空间的维数。　　3) ${N_{\rm{t} } }$ 代表一个知识图谱中三元组的数目。　　4) $ v $ 表示一种关系的向量数。　　5) k代表实体聚类簇数或实体投影向量数目。

表 1 各嵌入模型的复杂度 Table 1 Complexity of several embedding models

2 PTransD模型

基于TransD模型存在的问题，本文详细地介绍了在此基础上改进的知识表示模型PTransD。PTransD使用聚类算法和概率分布相似的原理来克服TransD的模型参数多和实体两种表示之间无联系的缺陷，并将得分函数的距离模型和概率分布相似模型集合成一个模型，从而增强模型的表示能力。

2.1 实体表示与聚类结合

模型参数越多，模型的拟合能力越强，越容易出现过拟合，导致模型泛化能力差，因此本文减少了投影向量个数。假定实体投影向量个数为 $ k $ ，对实体语义向量 $ {\boldsymbol{e}} $ (包括h和t)聚成 $ k $ 类，使实体类和实体投影形成一一对应的关系。聚类标准为计算每个 $ {\boldsymbol{e}} $ 到所有实体投影 $ {{\boldsymbol{e}}_{\rm{pj}}} $ 之间的欧氏距离，每个 $ {\boldsymbol{e}} $ 都对应一个距离最近的 $ {{\boldsymbol{e}}_{\rm{pj}}} $ ，对应同一个 $ {{\boldsymbol{e}}_{\rm{pj}}} $ 的实体自成一类。

为便于数学表达，记 $ {{\boldsymbol{e}}_{\rm{pj}}} $ 和对应实体集组成一个邻域 $ U({{\boldsymbol{e}}_{\rm{pj}}}) $ ， $ {{\boldsymbol{e}}_{\rm{pj}}} $ 为该邻域的邻域中心，对应实体集中的元素 $ {\boldsymbol{e}} $ 被称作邻域向量，记作 $ {\boldsymbol{e}} \in U({{\boldsymbol{e}}_{\rm{pj}}}) $ ，两两邻域之间互不相交。 $ k $ 个实体投影分别为 $ {\boldsymbol{e}}_{{\rm{pj}}}^{0},{\boldsymbol{e}}_{{\rm{pj}}}^{1}, \cdots ,{\boldsymbol{e}}_{{\rm{pj}}}^{k} $ ，在实体空间中对应 $ k $ 个邻域，所有实体就被自然地分为了至多 $ k $ 类。如图1所示，在第 $ i $ 个邻域 $ U({\boldsymbol{e}}_{{\rm{pj}}}^{i}) $ 中, 它们所对应的投影向量都为 $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ 。

图 1 实体空间实体分布示意图 Figure 1 Schematic diagram of entity distribution in entity space

所有实体聚类完成后，头尾投影矩阵分别表示为

$ {{\boldsymbol{M}}}_{{\mathcal{rh}}}={{\boldsymbol{r}}}_{{\rm{pj}}}{{(\boldsymbol{e}_{{\rm{pj}}}^i)^{\rm{T}}}}+{{\boldsymbol{I}}}^{m\times n}\text{，}{\boldsymbol{h}}\in U(\boldsymbol{e}_{{\rm{pj}}}^i) $

(1)

$ {{\boldsymbol{M}}}_{{\mathcal{rt}}}={{\boldsymbol{r}}}_{{\rm{pj}}}(\boldsymbol{e}_{{\rm{pj}}}^j)^{\rm{T}}+{{\boldsymbol{I}}}^{m\times n}\text{，}{\boldsymbol{t}}\in U(\boldsymbol{e}_{{\rm{pj}}}^j) $

(2)

$ i,j \in \left\{ {1,2, \cdots ,k} \right\} $

定义关系空间中被投影的头实体 $ {{\boldsymbol{h}}_ \bot } $ 和尾实体 $ {{\boldsymbol{t}}_ \bot } $ 的表示为

$ {{\boldsymbol{h}}_ \bot } = {{\boldsymbol{M}}_{{\mathcal{rh}}}}{\boldsymbol{h}} $

(3)

$ {{\boldsymbol{t}}_ \bot } = {{\boldsymbol{M}}_{{\mathcal{rt}}}}{\boldsymbol{t}} $

(4)

特别地，当 $ m \geqslant n $ 时，式(3)、式(4)可以进一步表示为

$ {{\boldsymbol{h}}_ \bot } = {{\boldsymbol{M}}_{{\mathcal{rh}}}}{\boldsymbol{h}} = {{(\boldsymbol{e}_{{\rm{pj}}}^i)^{\rm{T}}}}{\boldsymbol{h}}{{\boldsymbol{r}}_{\rm{pj}}} + {[{\boldsymbol{h}^{\rm{T}}},{{\bf{0}}^{\rm{T}}}]^{\rm{T}}},{\boldsymbol{h}} \in U(\boldsymbol{e}_{{\rm{pj}}}^i) $

(5)

$ {{\boldsymbol{t}}_ \bot } = {{\boldsymbol{M}}_{{\mathcal{rt}}}}{\boldsymbol{t}} = {{(\boldsymbol{e}_{{\rm{pj}}}^i)^{\rm{T}}}}{\boldsymbol{t}}{{\boldsymbol{r}}_{\rm{pj}}} + {{[{\boldsymbol{t}^{\rm{T}}},{{\bf{0}}^{\rm{T}}}]^{\rm{T}}}},{\boldsymbol{t}} \in U(\boldsymbol{e}_{{\rm{pj}}}^i) $

(6)

本文采用距离函数模型，被投影到关系 $ {\mathcal{r}} $ 平面的头实体 $ {{\boldsymbol{h}}_ \bot } $ 和尾实体 $ {{\boldsymbol{t}}_ \bot } $ 满足 $ {{\boldsymbol{h}}_ \bot } + {\boldsymbol{r}} - {{\boldsymbol{t}}_ \bot } \approx {\boldsymbol{0}} $ ，得分函数为

$ f({\mathcal{h}},{\mathcal{r}},{\mathcal{t}}) = - {\left\| {{{\boldsymbol{h}}_ \bot } + {\boldsymbol{r}} - {{\boldsymbol{t}}_ \bot }} \right\|_{{L_1}{\rm{/}}{L_2}}} $

(7)

其可以使用 $ {{L}}_{1} $ 距离或者 $ {{L}}_{2} $ 距离。

2.2 实体空间内的概率分布

对三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )来说，实体 $ {\mathcal{h}} $ 、 $ {\mathcal{t}} $ 及关系 $ {\mathcal{r}} $ 都有两种表示，用于构建投影矩阵的投影向量 $ {{\boldsymbol{h}}_{\rm{pj}}} $ 、 $ {{\boldsymbol{t}}_{\rm{pj}}} $ 、 $ {{\boldsymbol{r}}_{\rm{pj}}} $ 解决了“投影矩阵只与关系有关”的问题，但三元组的两种表示之间的关联信息并没有在TransD的模型假设中出现。TransD的实验结果显示，同一类的实体具有相似的投影向量。因此，不妨提前对实体投影做出约束，在实体空间中，相距越近的实体 $ {\boldsymbol{e}} $ ，越有可能属于同一类，对应的实体投影 $ {{\boldsymbol{e}}_{\rm{pj}}} $ 的距离也应该越近。本文提出猜想：若不同类之间的距离相近，对应的实体投影也应该越近。

测量类间距离有很多种方法，包括平均距离法、最短距离法、重心距离法等，但这些方法都涉及大量的两点距离计算，故本文提出实体类中心的概念，使用实体类中心代替整个实体类进行类间距离计算。在实体空间中，每一类实体语义向量可以确定一个实体类中心，采用算术平均值的方法计算 $ k $ 个实体类中心，第 $ i $ 类的实体类中心定义为

$ {{\boldsymbol{e}}^i} = \frac{{\displaystyle\sum\nolimits_{{\boldsymbol{e}} \in U( {{\boldsymbol{e}}_{{\rm{pj}}}^{i}} )} {\boldsymbol{e}} }}{{N( {U( {{\boldsymbol{e}}_{{\rm{pj}}}^i} )} )}} $

(8)

式中： $ N( {U( {{\boldsymbol{e}}_{{\rm{pj}}}^{i}} )} ) $ 为属于第 $ i $ 个邻域 $U({\boldsymbol{e}}_{\rm{pj}}^{i})$ 的实体总数。若第 $ i $ 类实体集为空，则实体类中心定义为该类的投影向量 $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ ，以便后续计算。如图1中，第 $ i $ 类邻域的实体类中心为

$ {{\boldsymbol{e}}^i} = \frac{{{\boldsymbol{h}}_1^{\left( i \right)} + {\boldsymbol{h}}_2^{\left( i \right)} + {\boldsymbol{h}}_3^{\left( i \right)} + {\boldsymbol{t}}_1^{\left( i \right)} + {\boldsymbol{t}}_2^{\left( i \right)}}}{5} $

实体类中心距离越近，对应的投影向量也越近。常规的做法是使用欧式距离来表示这种相似性，但是在高维空间中，每个坐标对欧式距离所做的贡献往往是不同的，本文把这种距离关系转换成一种概率来表示相似性。

在实体空间2个实体类中心 $ {{\boldsymbol{e}}^i} $ 和 $ {{\boldsymbol{e}}^j} $ 中， $ {{\boldsymbol{e}}^i} $ 以条件概率 $ {p_{j|i}} $ 选择 $ {{\boldsymbol{e}}^j} $ 作为它的临近点。考虑以 $ {{\boldsymbol{e}}^i} $ 为中心点的高斯分布，若 $ {{\boldsymbol{e}}^j} $ 越靠近 $ {{\boldsymbol{e}}^i} $ ，则 $ {p_{j|i}} $ 越大；若2点相距越远， $ {p_{j|i}} $ 越小。因此， $ {p_{j|i}} $ 的定义为

$ {p_{j|i}} = \frac{{\exp ( { - {{\| {{{\boldsymbol{e}}^i} - {{\boldsymbol{e}}^j}} \|}^2}/2\sigma _i^2} )}}{{\displaystyle\sum\nolimits_{d \ne i} {\exp ( { - {{\| {{{\boldsymbol{e}}^i} - {{\boldsymbol{e}}^d}} \|}^2}/2\sigma _i^2} )} }} $

(9)

式中： $ {\sigma _i} $ 为以 $ {{\boldsymbol{e}}^i} $ 为中心点的高斯分布的方差， $ {p_{i|i}} = 0 $ 。

实体类中心 $ {{\boldsymbol{e}}^i} $ 和 $ {{\boldsymbol{e}}^j} $ 分别对应的投影向量为 $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ 和 $ {\boldsymbol{e}}_{{\rm{pj}}}^{j} $ ， $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ 以条件概率 $ {q_{j|i}} $ 选择 ${e_{\rm{pj}}^j}$ 作为它的临近点。类似地，考虑以 $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ 为中心点的高斯分布，若 $ {\boldsymbol{e}}_{{\rm{pj}}}^{j} $ 距离 $ {\boldsymbol{e}}_{{\rm{pj}}}^{i} $ 越近，则 $ {q_{j|i}} $ 越大，反之越小。将所有高斯分布的方差均设置为 $ 1/\sqrt{2} $ ， $ {q_{j|i}} $ 的定义为

$ {q_{j|i}} = \frac{{\exp ( { - {{\| {\boldsymbol{e}_{{\rm{pj}}}^i - \boldsymbol{e}_{{\rm{pj}}}^j} \|}^2}} )}}{{\displaystyle\sum\nolimits_{d \ne i} {\exp ( { - {{\| {\boldsymbol{e}_{{\rm{pj}}}^i - \boldsymbol{e}_{{\rm{pj}}}^d} \|}^2}} )} }}$

(10)

由于 $ {p_{j|i}} $ 和 $ {p_{i|j}} $ 并不相等，对应的投影向量的概率 $ {q_{j|i}} $ 和 $ {q_{i|j}} $ 也不相等，不具有对称性，所以为了得到一个更加通用、合理的联合概率分布，使对于任意的 $ i、j $ ，都有 $ {p_{j|i}} = {p_{i|j}} $ ， $ {q_{j|i}} = {q_{i|j}} $ 。将式(9)进行对称化处理，得到新的定义为

$ {p_{ij}} = \frac{{{p_{j|i}} + {p_{i|j}}}}{{2k}},{p_{ij}} = {p_{ji}} $

(11)

同时，对式(10)改进为

$ {q_{ij}} = \frac{{\exp ( { - {{\| {\boldsymbol{e}_{{\rm{pj}}}^i - \boldsymbol{e}_{{\rm{pj}}}^j} \|}^2}} )}}{{\displaystyle\sum\nolimits_{d \ne l} {\exp ( { - {{\| {\boldsymbol{e}_{{\rm{pj}}}^l - \boldsymbol{e}_{{\rm{pj}}}^d} \|}^2}} )} }},{q_{ij}} = {q_{ji}} $

(12)

若考虑 $ {{\boldsymbol{e}}^i} $ 与其他所有实体类中心之间的概率，则可以构成一个概率分布 $ {{\boldsymbol{P}}_i} $ ，且满足 ${p_{ij}} \geqslant 0,\displaystyle\sum\nolimits_{j = 0}^{k - 1} {{p_{ij}}} = 1$ 。所有实体类中心的概率分布合成一个概率矩阵 $\boldsymbol{P} = {(\boldsymbol{P}_1^{\rm{T}},\boldsymbol{P}_2^{\rm{T}}, \cdots ,\boldsymbol{P}_k^{\rm{T}})^{\rm{T}}}$ 。类似地，实体投影向量之间也构成了一个概率矩阵 $\boldsymbol{Q} = {(\boldsymbol{Q}_1^{\rm{T}},\boldsymbol{Q}_2^{\rm{T}}, \cdots ,\boldsymbol{Q}_k^{\rm{T}})^{\rm{T}}}$ ，满足 ${q_{ij}} \geqslant 0, \displaystyle\sum\nolimits_{j = 0}^{k - 1} {{q_{ij}}} = 1$ 。

2.3 模型训练 2.3.1 双训练目标

所有知识表示模型都采用三元组损失函数作为目标函数进行训练，本文在三元组损失函数的基础上增添K-L散度损失函数作为辅助，完整的损失函数表示为

$\begin{split} &L = {L_{{\rm{score}}}} + {L_{{\rm{K - L}}}}=\\ &\sum\limits_{( {{\mathcal{h}},{\mathcal{r}},{\mathcal{t}}} ) \in \varDelta ,( {{\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}'} ) \in \varDelta '} {\xi \left( {f\left( {{\mathcal{h}},{\mathcal{r}},{\mathcal{t}}} \right),f\left( {{\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}'} \right)} \right) + {D_{{\rm{K - L}}}}\left( {{\boldsymbol{P}}\parallel {\boldsymbol{Q}}} \right)}= \\ & \sum\limits_{( {{\mathcal{h}},{\mathcal{r}},{\mathcal{t}}} ) \in \varDelta } \sum\limits_{( {{\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}'} ) \in \varDelta '} \max \left( {f\left( {{\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}'} \right) + \gamma - f\left( {{\mathcal{h}},{\mathcal{r}},{\mathcal{t}}} \right),0} \right) +\\ & \sum\nolimits_i {\sum\nolimits_j {{p_{ij}}\lg \left( {\frac{{{p_{ij}}}}{{{q_{ij}}}}} \right)} } \end{split} $

(13)

在式(13)中，第1个目标表示三元组损失，目的是为了区分正确三元组和错误三元组，其中 $ \varDelta $ 表示正确三元组的集合， $ \varDelta ' $ 代表错误三元组的集合， $ \xi $ 表示hinge损失函数， $ \gamma $ 为正确三元组得分与错误三元组得分之间的距离,在最小化 $ {L_{{\text{score}}}} $ 过程中，需要满足限制条件

$\begin{split} &\forall ({\mathcal{h}}{\text{,}}{\mathcal{r}}{\text{,}}{\mathcal{t}}) \in \varDelta \cup \varDelta '，{\left\| {\boldsymbol{h}} \right\|_2} \leqslant 1,{\left\| {\boldsymbol{t}} \right\|_2} \leqslant 1，{\left\| {\boldsymbol{r}} \right\|_2} \leqslant 1，{\left\| {{{\boldsymbol{h}}_ \bot }} \right\|_2} \leqslant 1，\\ &{\left\| {{{\boldsymbol{t}}_ \bot }} \right\|_2} \leqslant 1 ，\forall i\in \left\{0,1,\cdots ,k-1\right\}，{\Vert {{\boldsymbol{e}}}^{i}\Vert }_{2}\leqslant 1,{\Vert {{\boldsymbol{e}}}_{{\rm{pj}}}^{i}\Vert }_{2}\leqslant 1 \end{split} $

第2个目标表示K-L散度损失，目的是对实体空间的实体类中心和对应的实体投影进行相似性度量。 ${D_{{{{\rm{K}} - {\rm{L}}}}}}\left( {{\boldsymbol{P}}\parallel {\boldsymbol{Q}}} \right)$ 为衡量概率分布P和Q之间的差异。当P=Q时，取最小值为0。2个目标函数相辅相成，共同优化模型。

2.3.2 负采样策略

训练模型时，需要损坏知识图谱中的三元组来构建负例三元组。TransE提出的方法是均匀采样(随机替换头尾实体)，但这种抽样方法在处理一对多、多对一以及多对多的复杂关系时，构建的三元组不是负例的概率较大。针对上述缺点，TransH提出基于伯努利分布的采样，以不同的概率来替换头尾实体，降低引入错误负例的概率。本文在伯努利分布采样的基础上，选择类间距大的类中的实体来替换头尾实体，以便提高模型对实体的区分度。

1) 以不同的概率替换

在生成负例时，根据关系的类型不同来设置不同的替换策略。对于一对多关系，以更高的概率来替换头实体；对于多对一关系，以更高的概率来替换尾实体；对于多对多关系，相当于多个多对一关系或者一对多关系，按前两种关系的替换策略来进行。

首先提出2个概念：在一个关系的所有三元组中， $ {\rm{tph}} $ 表示每个头实体对应的尾实体的平均数量， $ {\rm{hpt}} $ 表示每个尾实体对应的头实体的平均数量。当 $ {\rm{tph}} < 1.5 $ 且 $ {\rm{hpt}} < 1.5 $ 时，则认为关系 $ {\mathcal{r}} $ 是一对一的；当 $ {\rm{tph}} > 1.5 $ 且 $ {\rm{hpt}} > 1.5 $ 时，则认为关系 $ {\mathcal{r}} $ 是多对多的；当 $ {\rm{tph}} < 1.5 $ 且 $ {\rm{hpt}} \geqslant 1.5 $ 时，则认为关系 $ {\mathcal{r}} $ 是多对一的；当 $ {\rm{tph}} \geqslant 1.5 $ 且 $ {\rm{hpt}} < 1.5 $ 时，则认为关系 $ {\mathcal{r}} $ 是一对多的。

其次用参数为 $ {{p}} = \dfrac{{{\rm{tph}}}}{{{\rm{tph}} + {\rm{hpt}}}} $ 的伯努利分布来抽样。对于给定的一个三元组，以概率 $ {{p}} $ 替换头实体，以概率 $ 1 - {{p}} $ 替换尾实体，来生成负例三元组。

2) 选择类间距大的类的实体

在前文中，所有实体被划分为了 $ k $ 类，每一类实体都具有相似的类型和属性。给定三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )，假设抽样时依据伯努利分布需要替换头实体，选择同一邻域内的实体 $ {\mathcal{h}}\;' $ 来替换 $ {\mathcal{h}} $ ，依据式(11)可知，翻译到关系空间的 $ {\boldsymbol{h}}{'_ \bot } $ 和 $ {{\boldsymbol{h}}_ \bot } $ 也靠近，产生的负例( $ {\mathcal{h}}\;' $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )很可能是正确的，导致预测标签错误。因此，尽可能选择类间距大的类中的实体来替换。

不妨假设实体从实体空间翻译到关系空间，并没有改变它们之间的相对距离关系。选择类间距大的类的实体进行替换，确保翻译到关系空间的两个实体也相距较远。对于需替换头实体的三元组，计算头实体所对应的实体投影 $ {{\boldsymbol{e}}_{\rm{pj}}} $ 到所有实体投影的距离，并按距离将对应的类别降序排列，表示为 $ \left\{ {{l_1},{l_2}, \cdots ,{l_k}} \right\} $ 。选取第 $ {l_1} $ 类的实体来替换头实体，若第 $ {l_1} $ 类中没有实体，则依次递推选择第 $ {l_2} $ 类至第 $ {l_k} $ 类中的实体。

对于三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )， $ {\boldsymbol{h}} \in U\left( {{{\boldsymbol{e}}_{\rm{pj}}^i}} \right) $ 且 $ {\boldsymbol{t}} \in U\left( {{{\boldsymbol{e}}_{\rm{pj}}^j}} \right) $ ， $ {\mathcal{r}} $ 属于一对多关系，应以更大概率替换头实体，由于 $ U\left( {{{\boldsymbol{e}}_{\rm{pj}}^i}} \right) $ 与 $ U\left( {{{\boldsymbol{e}}_{\rm{pj}}^m}} \right) $ 的实体类中心越远，类间距越大，故随机选择 $ {{\boldsymbol{h}}^{\text{*}}} \in U\left( {{{\boldsymbol{e}}_{\rm{pj}}^m}} \right) $ 来替换 $ {\boldsymbol{h}} $ 。

在关系空间 $ {\mathcal{r}} $ 中， $ {{\boldsymbol{h}}_ \bot } + {\boldsymbol{r}} \approx {{\boldsymbol{t}}_ \bot } $ ，其他正确的尾实体也应分布在 $ {{\boldsymbol{t}}_ \bot } $ 周围，但 $ {{\boldsymbol{t}}^*}_ \bot ({{\boldsymbol{h}}^*}_ \bot + {\boldsymbol{r}}) $ 与 $ {{\boldsymbol{t}}_ \bot } $ 相距较远，损坏的三元组( $ {{\mathcal{h}}^{\;*}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )是负例的正确率较高。

2.3.3 实现交替优化算法

模型训练迭代包含2个阶段：三元组损失和K-L散度损失。每次迭代中，首先训练三元组损失2次，得到的实体向量表示作为K-L散度损失的输入，再继续训练1次，这种交替学习的方法在更加关注三元组损失目标的同时，更好地协同优化模型。算法1给出了PTransD的学习算法。

算法1 　Learning PTransD

Input: Training set $ { \varDelta = \left\{ {({\mathcal{h}},{\mathcal{r}},{\mathcal{t}})} \right\} }$ ，entities and rel. sets $ {E} $ and $ {L} $ , margin $ {\gamma }$ , entity and relation embedding dim ${ m} $ and $ {n} $ ，number of entity clusters $ {k} $ .

Output: The well trained embedding model.

1: initialize allparameters

　 $ {{\boldsymbol{r}} }$ , ${ {{\boldsymbol{r}}_{\rm{pj}}}} $ ←uniform $ {\left(-6/\sqrt{{n}},6/\sqrt{{n}}\right) }$ for each $ {r \in L }$

　 ${ {\boldsymbol{r}} }$ ← $ {\boldsymbol{r}/\|\boldsymbol{r}\| }$ for each ${ r \in L }$

　 ${ {\boldsymbol{e}} }$ , $ {{{\boldsymbol{e}}_{\rm{pj}}} }$ ←uniform ${ \left(-6/\sqrt{{m}},6/\sqrt{{m}}\right) }$ for each ${ {\mathcal{e}} \in E}$

2: for number of training iteration do

　// triple loss objection

3: for 2 steps do

4: ${ {\boldsymbol{e}}} $ , $ {{{\boldsymbol{e}}_{\rm{pj}}} }$ ← $ {\boldsymbol{e}/\|\boldsymbol{e}\| }$ , $ {{\boldsymbol{e}}_{\mathrm{pj}}/\|{\boldsymbol{e}}_{\mathrm{pj}}\| }$

5: ${ {\varDelta _{{\rm{batch}}}} }$ ←sample $ {(\varDelta ,B)} $ // sample a minibatch of size B

6: ${ {T_{{\rm{batch}}}} }$ ← $ {\emptyset }$ // initialize the set of pairs of triples

7: foreach ${ ({\mathcal{h}},{\mathcal{r}},{\mathcal{t}}) \in {\varDelta _{{\rm{batch}}}} }$ do

8: ${ ({\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}') }$ ←sample ${ \varDelta '} $ // sample a corrupted triple

9: ${ {T_{{\rm{batch}}}} }$ ← ${ {T_{{\rm{batch}}}} \cup \left\{ {({\mathcal{h}}{\text{,}}{\mathcal{r}}{\text{,}}{\mathcal{t}}),({\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}')} \right\} }$

10:　　 end for

11: Update embedding w.r.t

　　　 ${\displaystyle\sum\limits_{\left( {{\mathcal{h}}{\text{,}}{\mathcal{r}}{\text{,}}{\mathcal{t}}} \right) \in \varDelta ,\left( {{\mathcal{h}}',{\mathcal{r}},{\mathcal{t}}'} \right) \in \varDelta '} {\nabla \xi \left( {f\left( {{\mathcal{h}}{\text{,}}{\mathcal{r}}{\text{,}}{\mathcal{t}}} \right),f\left( {{{\mathcal{h}}_{\mathcal{r}}}',{\mathcal{r}},{{\mathcal{t}}_{\mathcal{r}}}'} \right)} \right)}}$

12: 　end for

　// K-L divergence loss objection

13: ${ {S^i} }$ ← ${ {{U}}( {{\boldsymbol{e}}_{{\rm{pj}}}^{i}} )\backslash {\boldsymbol{e}}_{{\rm{pj}}}^{i} }$ // get entity set of ${ {{U}}( {{\boldsymbol{e}}_{{\rm{pj}}}^{i}} ) }$

14: ${ {{\boldsymbol{e}}^i} }$ ←Eq. (8) // get center vectors of entity classes

15: ${ {\boldsymbol{P}} }$ , ${ {\boldsymbol{Q}}}$ ←Eq.(11), (12) // calculate probability matrix

16: Update embedding w.r.t ${ \nabla KL\left( {{\boldsymbol{P}}\parallel {\boldsymbol{Q}}} \right)} $

17: end for

3 试验和结果分析

本节介绍PTransD模型的的实验部分，通过在知识图谱上进行三元组分类和链接预测来评估模型的性能。首先介绍这2项工作的评价指标和实验结果，然后与其他模型方法的实验结果进行对比分析。

3.1 数据集

WordNet是世界著名的大型英语词典知识库，其名词、动词、形容词和副词被各自组成同义词网络，并通过关系连接，可用于语义消歧；FreeBase是一个完全结构化的大型知识库，其内容主要来自其社区成员的贡献和多种多样的数据库。本文在WordNet的子集(WN18和WN11)和Freebase的子集(FB15K和FB13)上进行实验。统计资料如表2所示，可以看出，WN18包含的实体较多，而FB15K包含的关系类别较多。

表 2 数据集的统计 Table 2 Statistics of datasets

3.2 链接预测

在知识图谱中，链接预测的任务是进行实体关系学习，具体地，就是预测一个关系事实三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )中所缺失的 $ {\mathcal{h}} $ 和 $ {\mathcal{t}} $ 。在该任务中，缺失位置的实体是从知识图谱中筛选出的一组候选实体，按得分进行排序，而不是只得到一个最好的实体。在训练过程中，对每个三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )，用知识图谱中的所有实体来替换头实体或尾实体，并计算得分，然后将替换后的三元组按得分进行降序排列，通过观察原三元组在该序列中的位置来评估模型的性能，位置越靠前说明模型性能越好。

知识图谱中存在一些一对多、多对一以及多对多的复杂关系，一些损坏三元组也存在于知识图谱中，但这些三元组是正确的，排名靠前是合理的。如果直接将这些损坏三元组认定为负例进行训练，会降低模型的表示能力。为了避免这种情况产生，将这种正确的损坏三元组从训练集、验证集和测试集中去除，该实验设置称为“Filt”，而没有经过去除处理的实验设置称为“Raw”。

3.2.1 评价指标

对所有训练的三元组按得分进行综合排列，用2个常用评价指标衡量模型优劣。一是平均排序(Mean Rank)，表示正确实体在所有候选实体中的平均排名，排名值越低，正确实体在排列中的位置越靠前，模型性能越好；二是HIT@10，表示正确实体排在前十名的概率，概率越大，模型预测越准确。

3.2.2 实验设置

在这个任务中，使用WN18和FB15K作为数据集，并都采用Adadelta SGD算法^[16]作为优化方法，设置超参数： $ \varepsilon = 1 \times {10^{ - 6}}，\rho = 0.95 $ 。在训练PTransD时，在{0.25,0.5,1,2}中选择边际 $ \gamma $ ，在{20,50,80,100}中选择实体维度 $ m $ 和关系 $ n $ ，在{100,200,1 000,1 400}中选择batch的大小B，在{20,50,100,200}中选择聚类个数 $ k $ 。最佳的参数由验证集确定。

“unif ”表示均匀采样，“bern”表示基于伯努利分布的采样。在“unif”设置下：在WN18上， $ \gamma = 1 $ ， $ m = 50 $ ， $ n = 50 $ ， $ B = 200 $ ， $ k = 50 $ ；在 FB15K上， $ \gamma = 0.5$ ， $ m = 50 $ ， $ n = 100 $ ， $ B = 1\;400 $ ， $ k = 200 $ 。在“bern”设置下：在WN18上， $ \gamma = 1 $ ， $ m = 50 $ ， $ n = 80 $ ， $ B = 1\;000 $ ， $ k = 50 $ ；在FB15K上， $ \gamma = 0.25 $ ， $ m = 100 $ ， $ n = 50 $ ， $ B = 1\;400 $ ， $ k = 100 $ 。对于这2个数据集，本实验将所有训练三元组迭代500次。

3.2.3 实验结果

PTransD的链接预测实验结果如表3所示，表中加粗的数字表示在同一指标下最优模型的实验结果。结果标明：(1) 相对于原模型TransD，PTransD模型的2个指标值有部分提升，HIT@10指标值提升更明显；(2) 对比2个数据集上的指标值，PTransD在FB15K上的结果较好，证明该模型在关系复杂且信息稠密的知识图谱上性能更优；(3) PTransD相对于其他模型来说，HIT@10值较高，证明其学习的能力更好。

表 3 链接预测实验结果 Table 3 Results of link prediction

模型名称	WN18实验结果				FB15K实验结果
	Mean Rank		HIT@10/%		Mean Rank		HIT@10/%
	Raw	Filt	Raw	Filt	Raw	Filt	Raw	Filt
Unstructured^[17]	315	304	35.3	38.2	1074	979	4.5	6.3
SE^[18]	1011	985	68.5	80.5	273	162	28.8	39.8
SME(Linear)^[19]	545	533	65.1	74.1	274	154	30.7	40.8
SME(Bilinear)^[19]	526	509	54.7	61.3	284	158	31.3	41.3
TransE^[9]	263	251	75.4	89.2	243	125	34.9	47.1
TransH^[13]	401	388	73.0	82.3	212	87	45.7	64.4
TransGH^[15]	210	197	81.6	95.3	186	64	54.1	80.1
TransR^[10]	238	225	79.8	92.0	198	77	48.2	68.7
TransF^[14]	—	198	—	95.3	—	62	—	82.3
TransD^[11]	224	212	79.6	92.2	194	91	53.4	77.3
PTransD(unif)	239	224	80.1	92.0	205	87	55.6	81.2
PTransD(bern)	220	210	82.4	94.1	192	72	55.6	82.4

表 3 链接预测实验结果 Table 3 Results of link prediction

为了验证PTransD确实能够较好地处理各种复杂关系，进一步对不同关系类型的三元组进行实验。选择具有更多关系类型的FB15K数据集来进行验证。在1 345个关系中，1-1关系占24%，1-n关系占23%，n-1关系占29%，m-n关系占24%，各关系的比例十分均衡。实验结果如表4所示，表中加粗的数字表示在同一指标下最优模型的实验结果。结果表明：(1) 相比于TransD模型，PTransD模型在复杂关系上的HIT@10值明显提高；(2) 相比于其他模型，PTransD模型能较好地区分1-1关系以及m-n关系，在另外两种关系中性能表现也较好。

表 4 FB15K各类关系的HIT@10值 Table 4 HIT@10 of each type of relations in FB15K

%
模型名称	预测头实体的HIT@10				预测尾实体的HIT@10
模型名称	1-1	1-n	n-1	m-n	1-1	1-n	n-1	m-n
Unstructured^[17]	34.5	2.5	6.1	6.6	34.3	4.2	1.9	6.6
SE^[18]	35.6	62.6	17.2	37.5	34.9	14.6	68.3	41.3
SME (Bilinear)^[19]	30.9	69.6	19.9	38.6	28.2	13.1	76.0	41.8
TransE^[9]	43.7	65.7	18.2	47.2	43.7	19.7	66.7	50.0
TransH^[13]	66.8	87.6	28.7	64.5	65.5	39.8	83.3	67.2
TransGH^[15]	87.0	95.8	47.9	80.8	86.8	55.7	94.8	84.3
TransR^[10]	78.8	89.2	34.1	69.2	79.2	37.4	90.4	72.1
TransF^[14]	88.1	94.9	53.2	82.8	88.8	62.1	93.4	85.8
TransD^[11]	86.1	95.5	39.8	78.5	85.4	50.6	94.4	81.2
PTransD(unif)	89.7	92.7	44.2	82.0	87.8	52.1	94.2	84.7
PTransD(bern)	89.5	94.5	45.7	82.8	88.9	52.5	94.1	85.8

表 4 FB15K各类关系的HIT@10值 Table 4 HIT@10 of each type of relations in FB15K

3.3 三元组分类

三元组分类的目标是判断一个给定的三元组( $ {\mathcal{h}} $ , $ {\mathcal{r}} $ , $ {\mathcal{t}} $ )是否正确。训练过程中，知识图谱中的三元组被判断为“正确”，每个正例三元组进行负采样得到的三元组被判断为“错误”。在关系 $ {\mathcal{r}} $ 下的所有三元组可通过计算最大分类精度值得到一个阈值 $ {\sigma _r} $ ，用来判断一个三元组“正确”或“错误”。如果其得分函数不超过阈值 $ {\sigma _r} $ ，就预测为正确，反之为错误。

3.3.1 评价指标

三元组分类任务使用准确率A作为评价指标，公式为

$ {{A}} = \frac{{{T_{{\text{pos}}}} + {T_{{\text{neg}}}}}}{{{N_{{\text{pos}}}} + {N_{{\text{neg}}}}}} $

(14)

式中： $ {T_{{\text{pos}}}} $ 和 $ {T_{{\text{neg}}}} $ 分别为预测正确的正例三元组个数和负例三元组个数， $ {N_{{\text{pos}}}} $ 和 $ {N_{{\text{neg}}}} $ 表示训练集中的正例三元组个数和负例三元组个数。A越高，模型进行三元组分类任务的能力越强。

3.3.2 实验设置

这个任务采用Adadelta SGD算法作为优化方法，并设置超参数 $\varepsilon $ 为 $ 1 \times {10^{ - 6}},\rho $ 为0.95。在训练PTransD时，在{1,2,4}中选择边际 $ \gamma $ ，在{20,50,100}中选择实体维度 $ m $ 和关系 $ n $ ，在{20,120,480,960,4 800}中选择batch的大小B，在{20,50,100,200}中选择聚类个数 $ k $ 。最佳的参数由验证集确定。WN11上的最佳配置为 $ \gamma = 2 $ ， $ m = 100 $ ， $ n = 100 $ ， $ B = 960 $ ， $ k = 50 $ ，并且使用 $ {{{L}}_{\text{1}}} $ 作为相似性度量；FB13上的最佳配置为 $ \gamma = 1 $ ， $ m = 50 $ ， $ n = 50 $ ， $ B = 4\;800 $ ， $ k = 200 $ ，并且使用 $ {{{L}}_{\text{1}}} $ 作为相似性度量；FB15K上的最佳配置为 $ \gamma = 1 $ ， $ m = 100 $ ， $ n = 100 $ ， $ B = 4\;800 $ ， $ k = 100 $ ，并且使用 $ {{{L}}_{\text{1}}} $ 作为相似性度量。

3.3.3 实验结果

表5列出了不同模型的三元组分类精度，表中加粗的数字表示在同一指标下最优模型的实验结果。在3个数据集上，PTransD模型都比TransD模型分类能力更好，这说明PTransD模型更适用于大规模知识图谱。

表 5 不同模型的三元组分类精度 Table 5 Accuracy of triple classification of different models

4 结论

本文提出了一种概率分布下基于双目标交替优化的知识表示模型PTransD。针对翻译的模型TransD参数多的问题，PTransD限制实体投影个数，对实体进行聚类，将“实体语义向量和实体投影两种表示属于一一对应的关系”转变成“实体类和实体投影属于一一对应的关系”。针对实体两种表示之间的关系无约束的问题，PTransD在对实体进行聚类的基础上，通过求平均值计算每类的实体类中心，利用概率代替欧氏距离来衡量实体类中心和实体投影的概率分布相似性，加强对实体投影的约束。采用交替优化的方法获得三元组损失和概率分布下的K-L散度损失，并共同训练模型。为了验证方法的有效性，在WordNet和FreeBase的大规模真实数据集上对链接预测和三元组分类任务进行了综合测评。实验结果表明，PTransD模型有较好的性能，可以应用于知识图谱的完善和推理中。

在将来的研究中继续改进PTransD模型，针对关系空间中关系的两种表示之间的相关性，引入关系路径；还可将PTransD模型应用于涉及关系抽取、知识推理的任务中。

参考文献

[1]	LENAT D B, PRAKASH M, SHEPHERD M. CYC: using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI Magazine, 1985, 6(4): 65.
[2]	MILLER G A. WordNet[J]. Communications of the ACM, 1995, 38(11): 39-41. DOI: 10.1145/219717.219748.
[3]	BOLLACKER K, COOK R, TUFTS P. Freebase: ashared database of structured general human knowledge[C]//Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence. Vancouver: AAAI Press, 2007: 1962-1963.
[4]	JI S, PAN S, CAMBRIA E, et al. A survey on knowledge graphs: representation, acquisition and applications [EB/OL]. (2021-04-01)[2021-04-20]. https://arxiv.org/abs/2002.00388.
[5]	GAO Y, LI Y, LIN Y, et al. Deep learning on knowledge graph for recommender system: a survey[EB/OL]. (2020-03-25) [2021-04-20]. https://arxiv.org/abs/2004.00387.
[6]	HUANG X, ZHANG J, LI D, et al. Knowledge graph embedding based question answering [C]//Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. New York: ACM, 2019: 105-113.
[7]	DAI Y, WANG S, XIONG N N, et al. A survey on knowledge graph embedding: approaches, applications and benchmarks[J]. Electronics, 2020, 9(5): 750. DOI: 10.3390/electronics9050750.
[8]	MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[9]	BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: NIPS, 2013: 2787-2795.
[10]	LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Austin: AAAI Press, 2015: 2181-2187.
[11]	JI G, HE S, XU L, et al. Knowledge graph embedding via dynamic mapping matrix[C] //Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing: ACL, 2015: 687-696.
[12]	WANG H, ZHANG F, ZHAO M, et al. Multi-task feature learning for knowledge graph enhanced recommendation[C]//Proceedings of the 2019 World Wide Web Conference. San Francisco: ACM, 2019: 2000-2010.
[13]	WANG Z, ZHANG J, FENG J, et al. Knowledge graph embedding by translating on hyperplanes[C] //In Proceedings of the Twenty-eighth AAAI Conference on Artificial Intelligence. Québec City: AAAI Press, 2014: 1112–1119.
[14]	DO K, TRAN T, VENKATESH S. Knowledge graph embedding with multiple relation projections[C]// 2018 24th International Conference on Pattern Recognition. Beijing: IEEE, 2018: 332-337.
[15]	ZHU Q, ZHOU X, TAN J, et al. Learning knowledge graph embeddings via generalized hyperplanes[C] //Proceedings of the 18th International Conference on Computational Science. Wuxi: Springer, 2018: 624-638.
[16]	ZEILER M D. Adadelta: an adaptive learning rate method[EB/OL]. (2012-12-22) [2021-04-20]. https://arxiv.org/abs/1212.5701v1.
[17]	BORDES A, GLOROT X, WESTON J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C]// Proceedings of the Fifteenth International Conference on Artificial Intelligence and Statistics. La Palma: PMLR, 2012: 127-135.
[18]	BORDES A, WESTON J, COLLOBERT R, et al. Learning structured embeddings of knowledge bases[C]//In Proceedings of the Twenty-eighth AAAI Conference on Artificial Intelligence. San Francisco: AAAI Press, 2011: 301–306.
[19]	BORDES A, GLOROT X, WESTON J, et al. A semantic matching energy function for learning with multi-relational data[J]. Machine Learning, 2014, 94(2): 233-259. DOI: 10.1007/s10994-013-5363-6.