论文阅读|NeurIPS 2013：（TransE）Embedding Embedding for Modeling Multi-relational Data

摘要

我们研究了低维向量空间中多关系数据的嵌入实体和关系问题。我们的目标是提出一个易于训练的规范模型，它将包含一组较少的参数，并且可以扩展到非常大的数据库，因此，我们提出了TransE，该方法可以将对关系的建模在低维度的实体表征空间上视为一种翻译操作。尽管它很简单，但这个假设被证明是很强大的，因为广泛的实验表明TransE在两个知识库上的的链接预测显著优于STOA方法。此外，它还在一个拥有1M个实体，25K个关系和超过17M个训练样本的大数据集上成功训练。

介绍

多关系数据是指节点对应于实体和边的形式（head，label，tail）（记做(h，l，t)），其中每一个都表示在实体head和tail之间存在一个关系label。多关系数据模型在许多领域中都扮演了关键角色。例如社会网络分析，其中实体是成员，边（关系）是友谊/社会关系链接；推荐系统中的实体是用户和产品，关系是购买、评级、评论或搜索产品；或知识库（KBs）例如Freebase，Google Knowledge Graph或GeneOntology。其中每个知识库中的实体都表示一个现实世界的抽象概念或具体实体，而关系是谓词，表示涉及其中两个概念的事实。我们的工作是建模来自知识库（本文中的Wordnet和Freebase）多关系数据，目标是提供一个有效的工具，通过自动添加新的事实来完成它们，而不需要额外的知识。

建模多关系数据 一般来说，建模过程归结为提取实体之间的局部或全局连接模式，并通过使用这些模式来泛化特定实体与所有其他实体之间的观察到的关系来进行预测。单一关系的位置概念可能是纯粹的结构性的，例如在社会网络中我朋友的朋友就是我的朋友，但也可能会依赖其他实体，例如喜欢星球大战IV的人也喜欢星球大战V，但他们可能喜欢或不喜欢泰坦尼克号。与单关系数据相反，在单关系数据中，可以在对数据进行一些描述性分析之后作出特定但简单的建模假设，关系数据的困难在于，局部性的概念可能同时涉及不同类型的关系和实体，因此对多关系数据建模需要更通用的方法，这些方法可以选择同时考虑所有异构关系的适当模式。

随着用户/项目聚类或矩阵分解技术在协同过滤中表示单个数据中实体的连通性模式之间的非平凡相似性的成功，正如所指出的，大多数现有的多关系数据方法都是在从潜在属性进行关系学习的框架内设计的；也就是说，通过学习和操作组成部分（实体和关系）的潜在表示（或嵌入）。从这些方法的自然扩展到多关系领域，例如随机模块模型的无参数贝叶斯扩展，以及基于张量分解或集体矩阵分解的模型，在贝叶斯聚类框架或基于能量的框架中，许多最新的方法都集中于提高模型的表达性和通用性，用于在低维空间中学习实体的潜入。这些模型更强的表达能力是以模型复杂性的大幅增加为代价的，这将导致难以解释的建模假设和更高的计算成本。此外，这些方法可能会受到过度拟合的影响，因为这种大容量模型的适当正则化很难设计，或者不拟合，因为有许多局部极小值的非凸优化问题需要解决来训练它们。事实上，[2]中显示了一个更简单的模型(线性的而不是双线性的)在具有相对大量不同关系的多个多关系数据集上取得了几乎和最有表现力的模型一样好的性能。这表明，即使在复杂和异构的多关系领域中，简单而适当的建模假设也可以在准确性和可伸缩性之间实现更好的权衡。

关系作为嵌入空间中的翻译 在本文中，我们引入transE，一个可以学习实体的低维向量嵌入的基于能量的模型。在TransE中，关系被表示成“向量空间中的翻译”：如果论文阅读|NeurIPS 2013：（TransE）Embedding Embedding for Modeling Multi-relational Data 成立，那么尾实体的嵌入加上某个依赖于关系的向量应该接近头实体h的嵌入。我们的方法依赖于一组简化的参数，因为对于每个实体和每个关系它只学习一个低维向量。

我们基于翻译的参数化背后的主要动机是层次关系在KB中非常常见，而翻译是表示它们的自然转换。的确，考虑到树的自然表现（即，维度2中节点的嵌入），兄弟节点彼此靠近，给定高度的节点被组织在x轴上，父-子关系对应于y轴上的翻译。由于空翻译向量对应于实体间的等价关系，因此模型也可以表示兄弟关系。因此我们选择使用每个关系的参数预算（一个低维向量）来表示我们认为的KB中的关键关系。另一个次要的动机来自于最近的工作[8]，作者从自由文本中学习单词嵌入，和一些一对一的不同类型的实体之间的关系，这样的国家与城市之间的“...的首都”，是（巧合的是而不是希望是）在嵌入空间中被模型表示成翻译。这表明可能存在嵌入空间，在这些空间中，不同类型的实体之间的一对一关系也可以通过翻译来表示。我们的模型的目的是强制这种嵌入空间的结构。

我们在第4节中的实验证明，这个新模型虽然简单并且其架构主要是为层次结构建模而设计的，但最终在大多数类型的关系上都很强大，并且在真实世界KBs上的链接预测方面显著优于STOA方法。此外，它的轻量级参数使得它能够在包含1M个实体、25k个关系和超过17M个训练样本的大规模分割Freebase上成功训练。

基于翻译的模型

给定一个训练集S，其中三元组论文阅读|NeurIPS 2013：（TransE）Embedding Embedding for Modeling Multi-relational Data 由两个实体（实体集合）和一个关系（关系集合）组成，我们的模型学习实体和关系的向量嵌入。嵌入从中取值（是一个模型超参数）并且用黑体字符记做相同的字母。我们模型背后的基本思想是由论文阅读|NeurIPS 2013：（TransE）Embedding Embedding for Modeling Multi-relational Data 标签的边引入的函数关系对应着嵌入的翻译，即当成立时我们想让（应该是最近的邻居），否则应该远离。在基于能量的框架下，对于不同的度量，一个三元组的能量等于论文阅读|NeurIPS 2013：（TransE）Embedding Embedding for Modeling Multi-relational Data ，我们认为这是或范数。

为了学习这样的嵌入，我们在训练集上最小化一个基于边缘的排序准则：