论文解读:Connecting Embeddings for Knowledge Graph Entity Typing
论文解读:Connecting Embeddings for Knowledge Graph Entity Typing
知识图谱实体类型推理(KG Entity Typing)致力于预测知识图谱中可能缺失的实体类型实例,其作为知识图谱自动补全的一项子任务,非常重要但仍然缺乏更深入的研究。本文的方法基于联合学习的思路,从已知实体类型标注集中局部类型标注知识(Local typing knowledge)和知识图谱中全局三元组知识(Global triple knowledge)两类数据中挖掘知识,提出了两种有效的基于知识驱动的实体类型推理机制,建立了两个新的嵌入式模型(Embedding Models)并加以实现。最终,建立联合模型并实现实体类型推理。通过在真实知识图谱Freebase和YAGO上的两类实验(即实体类型预测和实体类型分类),验证了论文所提实体类型推理机制和模型的有效性。
一.简要信息
序号 | 属性 | 值 |
1 | 模型名称 |
E2T和TRT
|
2 | 所属领域 | 知识图谱 |
3 | 研究内容 | 实体类型推理 |
4 | 核心内容 | Knowledge Inference |
5 | GitHub源码 |
https://github.com/Adam1679/ConnectE
|
6 | 论文PDF | https://www.aclweb.org/anthology/2020.acl-main.572/ |
二.全文概要
首先,关系实体补全,和实体关系的补全的研究已经很多了,比如实体链接。但是实体类型补全的研究却很少,而实体类型不完整会导致知识图谱驱动的任务中涉及的算法无效甚至不可用,且实体类型补全同样也是知识图谱补全不可缺少的一部分。文章里也介绍了两种不同的机制来补全实体类型,如下图所示:
机制1为下图的左边部分,很明显存在两个实体Barack Obama和Donald Trump。而Barack Obama缺少的实体类型,可能就能由Donald Trump的实体类型影响。
机制2为下图的右边部分,观察实体Barack Obama和实体Honolulu,两个实体的实体联系为born in。构成三元组(Barack Obama, born in, Honolulu),更通用的为(/people/person, born in, /location/location)。因此,可以得到如下公式Honolulu − Barack Obama = /location/location-/people/person (= born in),当有一个缺失实体类型的实例(Barack Obama, type=? ),我们就可以用这个公式去求解。
显然,机制一和机制二需要两个不同的模型去实现。
机制一的理论基础:因为实体一和实体二是两个不同的对象。故需要两个构建两个不同的嵌入空间e,t.并通过使用映射矩阵M将实体从实体空间投影到实体类型空间,表示为M.e∽t,称作E2T。
机制二的理论基础:根据之前描述机制二,可知其合理性可以得到te˜ ~ r◦ = te,称为TRT。
如下图所示:
虽然关于实体类型之前有一定的研究,但是明显都有一定的缺陷,比如LM,PEM忽视了全局三元组知识。而RESCAL-ET,HOLE-ET,TransE-ET和ETE错误的认为实体类型和实体在一个空间中,这显然并不合理,等等还有一些其他模型,如下图所示:
接下来,详细介绍E2T和TRT。
一.E2T:将实体映射到实体类型
该框架的第一个模型(E2T)涉及从实体类型中学习具有局部类型知识的函数Se2t(e,t),该函数旨在对实体e和类型t的相似性进行评分。该模型背后的主要思想如下:由于已经学习了的实体在嵌入在具有相同或相似类型时会很好地聚类。因此,实体类型嵌入表示了一个聚类的投影通用概念表示为fproj (e) = M · e (∽te)。该模型包括首先将投影实体嵌入到实体类型空间中,然后计算该投影与实体类型嵌入之间的相似性度量。当得分函数给定e,t时为。M为投影矩阵。当为正确的实例时,得分会低。错误时,得分会变高。
二.TRT:在KG中编码三元组
类似于E2T,TRT利用全局三元组知识构建得分函数。我们认为 三元组(首部实体,关系,尾部实体)成立的必要前提是其对应的实体类型应首先符合该关系。因此,我们可以通过将head实体和tail实体都替换为其对应的类型来构建新的实体类型三元组。定义得分函数为。如果两个实体类型接近,那么得分函数的值就越小。