实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

  • 关键词:Iterative AlignmentJoint Embedding

  • 摘要

文章指出之前的实体对齐方法通常依赖于实体的外部信息,比如Wikipedia连接,并且需要昂贵的人工构造特征来完成实体对齐。而本文提出一种利用联合知识嵌入实现实体对齐。该方法根据一个小的对齐实体种子集,将不同KG的实体和关系联合编码到一个统一的低维语义空间中。更具体地说,我们提出了一种迭代和参数共享的方法来提高对齐性能。

  • 介绍

本文方法主要由三部分组成:(1)知识嵌入。利用基于翻译的KRL(Knowledge Representation Learning)学习实体和关系的嵌入。(2)联合嵌入。根据种子集将不同KG的知识嵌入映射到联合语义空间。(3)迭代对齐。通过考虑那些在方法中越来越多地发现的高度自信的对齐实体,迭代地对齐实体及其对应实体,并更新联合知识嵌入。

  • 方法

由于本文方法由三部分组成,故目标函数也定义成对应的三部分:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

模型总体架构如下:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

该图表明了我们的方法通过TransE与参数共享和软对齐实现。蓝色和红色的点分别表示来自实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings的实体,灰色箭头在实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中都表示关系。KG之间的实线和虚线表示迭代学习中的对齐种子和新对齐的实体对。我们使用KG和score函数之间的链接来表示嵌入源和相应的目的地。相同的颜色表示相同的实体/关系和相应的嵌入。

 

1.知识嵌入(Knowledge Embeddings

虽然TransE在许多任务中表现出色,但它在KG中忽略了重要的多步路径信息,难以建模复杂的关系。因此使用了PTransE来代替TransE,PTransE考虑了多步路径信息,可以获得更好的实体对齐性能。根据PTransE,我们将关系路径定义为实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,且有实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。在PTransE中,如果一个关系路径起到一个与关系相同的作用,即实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,我们将路径嵌入定义为实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。能量函数被定义为:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

 

2.联合嵌入(Joint Embeddings

本文提出三个联合嵌入模型,分别是Translation-based Model(基于翻译的模型),Linear Transformation Model(线性变换模型)和Parameter Sharing Model(参数共享模型)。

Translation-based Model(基于翻译的模型) 给定两个对齐实体实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,假设存在对齐关系实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings使得实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,则联合嵌入的能量函数被定义为:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

Linear Transformation ModelLT,线性变换模型) 给定两个对齐实体实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,定义一个变换矩阵实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,使得实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。故能量函数被定义为:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

对于Translation-based Model和LT Model,可以将得分函数定义为对齐种子上的能量函数之和,形式为:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

其中实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings是加权系数。

Parameter Sharing ModelPS,参数共享模型) 上面两种模型可以看作是学习知识嵌入的正则化。由于对齐的实体在KG中具有相同的含义,因此让这些对齐的实体共享相同的嵌入对我们来说也是很直观的。形式上,对于每一个对齐实体对实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,定义:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

PS模型简单有效地将实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings的知识嵌入到相同的语义空间中。在该模型中,没有正则化变量,因此其得分函数实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

 

3.迭代对齐(Iterative Alignment

  基于知识嵌入和连接嵌入,可以根据实体之间的语义距离在统一的语义空间内进行实体对齐。针对不同的关节嵌入模型,采用不同的方法计算语义距离。基于翻译的模型使用公式(9)计算距离;线性变换模型使用公式(10)计算距离;参数共享模型使用以下公式计算模型:实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

  以这种方式,对于一个KG中的每一个非对齐实体实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,我们都会从另一个KG中找到最相近的非对齐实体实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。我们还定义了一个距离阈值实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings作为超参数,如果实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,我们自信实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings很有可能是实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings的对应,否则我们就不会将实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings看作是实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings的对应。我们将这些实体称作新对齐实体

  显然,新对齐实体可以帮助更新联合嵌入,并找到更多要对齐的实体。因此,我们提出迭代实体对齐,并设计了联合嵌入和实体对齐的两种迭代学习策略。

Hard AlignmentHA,硬对齐) 对于参数共享模型,我们可以简单地对那些新对齐实体应用参数共享规则。即,我们将新对齐实体对实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings添加到对齐种子实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中,并简单地强制实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。然后根据更新后的种子集实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings更新联合嵌入。对于HA来说,新对齐实体对是直接添加到实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中的,所以HA的得分函数是实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

Soft AlignmentSA,软对齐) 由于实体对齐存在不可避免的错误,硬对齐在引入错误对齐时可能会产生错误传播。例如,由于乔治·w·布什(George W. Bush)和比尔·克林顿(Bill Clinton)都是美国总统,他们表现出类似的嵌入。假设实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中的George W. Bush和实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中的Bill Clinton偶然地被HA对齐,那么它可能相应地将它们的出生地,实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中New Haven和实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings中的Hope,强制地嵌入得更接近,导致更多错误。

  为解决这一问题,我们提出了软对齐(SA),通过为每个新对齐实体分配一个可靠性得分。该方法可与基于翻译的模型、线性变换模型和参数共享模型相结合使用。形式上,我们创建一个集合实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,并迭代地将新对齐实体加入这个集合。对于每个对齐实体对实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings,我们定义映射实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings来计算可靠性得分:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

其中实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings是sigmoid**函数,实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings是一个超参数,满足实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings。可以观察到,可靠性函数对应语义距离实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

  基于新对齐实体的可靠性函数,我们将软对齐的评分函数公式化为:

实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings

其中实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings表示在该三元组上的损失。对于TransE和PTransE,我们有不同的U:在TransE中,实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings;在PTransE中,实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings实体对齐2.IJCAI 2017:(IPTransE)Iterative Entity Alignment via Joint Knowledge Embeddings