【论文笔记】Text-Enhanced Representation Learning for Knowledge Graph

中文标题：文本增强的知识图谱表示学习

发表会议：IJCAI 2016

文章链接：Text-Enhanced Representation Learning for Knowledge Graph

源代码：无

1 Introduction

1.1问题陈述：

知识图谱的表示将每个关系视为从头部实体到尾部实体的一个翻译，包括TransE，TransH和TransR等基于翻译的方法简单有效，并且实现了最先进的性能。然而，它们仍然存在以下问题：

在建模1对N，N对1和N对N关系时的性能较低。
由于知识图谱的结构稀疏性而导致性能有限。

1.2 解决办法：

本文提出了一种新的基于文本增强的知识嵌入（TEKE）方法，用于知识图谱的表示学习。
【论文笔记】Text-Enhanced Representation Learning for Knowledge Graph

1.2.1 要点

将（h，r，t）中的每个关系的文本上下文表示为h和t上下文的公共部分，这使得每个关系拥有不同的头尾实体的不同表示，从而更好地处理1-to-N、N-to-1和N-to-N关系。
我们将文本上下文合并到每个实体和关系中，极大地扩展了知识图谱的语义结构。

1.2.2 四个关键组件

实体标注
实体上下文嵌入
实体/关系表示建模
表示训练

2 Methodology

2.1 实体标注

给定文本语料库 $\mathcal{D}=\left\langle w_{1} \ldots w_{i} \ldots w_{m}\right\rangle$ 通过实体链接工具自动标注知识图谱KG中的实体，获得实体标注的文本集：

$\mathcal{D}^{\prime}=\left\langle X_{1} \ldots X_{i} \ldots \mathrm{X}_{m^{\prime}}\right\rangle$

2.2 实体上下文嵌入

为了将知识和文本信息桥接到一起，作者构建了一个基于实体标注文本语料库 $\mathcal{D}^{\prime}$ 的共现网络 $\mathcal{G}=(\mathcal{X}, \mathcal{Y})$ 。 $x_{i} \in \mathcal{X}:$ 表示一个节点（一个词或者一个实体）。 $y_{i j} \in \mathcal{Y}: \quad x_{i}$ 和 $x_{j}$ 的共现频率。

Text:James Francis Cameron, the famous director of the movie Avatar, is an The fiction film Avatar directed by J. Cameron was nominated by In 1994 director James Cameron wrote an 80-page treatment for Avatar.

逐点文本上下文

$\mathrm{n}\left(x_{i}\right)=\left\{x_{j} | y_{i j}>\theta\right\}$ 即和 $x_i$ 共现频率较高的词。

对于上面的文本：

$\mathrm{n}(\text { Avatar })=\{\text { film, movie, directed } \ldots\}$

$n(James_Cameron)=\{\text {director} \ldots\}$

成对文本上下文

$\mathrm{n}\left(x_{i}, x_{j}\right)=\left\{x_{k} | x_{k} \in \mathrm{n}\left(x_{i}\right) \cap \mathrm{n}\left(x_{j}\right)\right\}$ 即 $n(x_i)$ 和 $n(x_j)$ 的交集。

对于上面的文本：

$n(Avatar,james_cameron) =\{\text { direct } \ldots\}$

$x_i$ 的逐点上下文嵌入

$n\left(x_{i}\right)=\frac{1}{\sum_{x_{j} \in n\left(x_{i}\right)} y_{i j}} \sum_{x_{j} \in \mathrm{n}\left(x_{j}\right)} y_{i j} \cdot x_{j}$ 即 $n(x_i)$ 中节点向量的加权平均值。

$x_i$ 和 $x_j$ 的成对上下文嵌入

$n\left(x_{i}, x_{j}\right)=\frac{1}{Z} \sum_{x_{k} \in \mathrm{n}\left(x_{i}, x_{j}\right)} \min \left(y_{i k}, y_{j k}\right) \cdot x_{k}$ 即 $n(x_i,x_j)$ 中节点向量的加权平均值。

2.3 实体/关系表示建模

将文本上下文信息整合到知识图谱的表示学习中，表示模型基于传统的基于翻译的方法。 $\hat{\mathbf{h}}$ 和 $\hat{\mathbf{t}}$ 是 $h$ 和 $t$ 的逐点上下文嵌入的线性变换， $\hat{\mathbf{r}}$ 是 $h$ 和 $t$ 的成对文本上下文嵌入的线性变换。

$\begin{aligned} \hat{\mathbf{h}} &=\mathbf{n}(h) \mathbf{A}+\mathbf{h} \\ \widehat{\mathbf{t}} &=\mathbf{n}(t) \mathbf{A}+\mathbf{t} \\ \hat{\mathbf{r}} &=\mathbf{n}(h, t) \mathbf{B}+\mathbf{r} \end{aligned}$

打分函数： $f(h, r, t)=\|\widehat{\mathbf{h}}+\widehat{\mathbf{r}}-\widehat{\mathbf{t}}\|_{2}^{2}$

2.4 表示训练

$L=\sum_{(h, r, t) \in \mathcal{S}\left(h^{\prime}, r, t^{\prime}\right) \in \mathcal{S}^{\prime}} \max \left(0, f(h, r, t)+\gamma-f\left(h^{\prime}, r, t^{\prime}\right)\right)$

以上四步如下图所示：
【论文笔记】Text-Enhanced Representation Learning for Knowledge Graph

【论文笔记】Text-Enhanced Representation Learning for Knowledge Graph

1 Introduction

1.1问题陈述：

1.2 解决办法：

1.2.1 要点

1.2.2 四个关键组件

2 Methodology

2.1 实体标注

2.2 实体上下文嵌入

2.3 实体/关系表示建模

2.4 表示训练

3 Experiments

3.1 数据集

3.2 任务

3.2.1 链接预测

3.2.2 三元组分类

【论文笔记】Text-Enhanced Representation Learning for Knowledge Graph

1 Introduction

1.1问题陈述 ：

1.2 解决办法：

1.2.1 要点

1.2.2 四个关键组件

2 Methodology

2.1 实体标注

2.2 实体上下文嵌入

2.3 实体/关系表示建模

2.4 表示训练

3 Experiments

3.1 数据集

3.2 任务

3.2.1 链接预测

3.2.2 三元组分类

相关推荐

1.1问题陈述：