论文解读《Collective Entity Alignment via Adaptive Features》
论文解读《Collective Entity Alignment via Adaptive Features》
论文题目:Collective Entity Alignment via Adaptive Features
论文来源:2020 IEEE 36th International Conference on Data Engineering (ICDE), Weixin Zeng,Xiang Zhao,Jiuyang Tang ,Xuemin Lin
论文地址:https://arxiv.org/pdf/1912.08404.pdf
代码链接:https://github.com/DexterZeng/CEA
1.解决的问题
在生成实体对齐结果时,目前的解决方案独立地对待实体,并没有考虑到实体之间的相互依赖性。(可以理解为:在源实体与目标实体进行匹配时,如果存在目标实体和另一个具有较高置信度的实体,则目标实体不太可能与源实体匹配,应该选择另一个实体为待对齐的实体对。 对此类集合信号进行充分建模会减少失配并生成更高的对准精度。)
本文使用三个具有代表性的特征,即结构、语义和字符串标识。为了进行集体的实体对齐决策,我们将EA定义为经典的稳定匹配问题,并通过递延接受算法进一步有效地解决了该问题。
2.方法
首先利用结构、语义和字符串特征来捕获实体间的相似性,然后捕捉依赖特征,将实体对齐特征表征为稳定的分类匹配问题(SMP)。从而利用好特征得到实体的性能列表。利用延迟到达算法(DAA)获得较高的精确率和有效率。
2.1特征生成方法
结构信息
利用GCN模型得到包含实体邻居信息的向量表示;
给定结构嵌入矩阵Z,利用cosine相似度得到实体之间的结构相似度矩阵Ms,在这个矩阵中,行代表源实体,列代表目标实体。
GCN:内容可a以参照《 Cross-lingual knowledge graph alignment via graph convolutional networks》
cosine:余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。两个向量夹角越小越相似。
语义信息
利用平均词嵌入捕捉语义特征;
所有实体的名称的嵌入可以被定义为一个矩阵N,利用cosine相似度捕捉实体间的近似程度,语义相似度矩阵表示为Mn
字符串信息
利用编辑距离方法来度量两个序列之间的差异性,生成一个字符串相似度矩阵Ml
编辑距离:针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串
2.2集体实体对齐方法
普通匹配方法
利用相同的权重将上面的三个矩阵融合为一个矩阵M。
对齐方法为:给定一个源实体u,遍历矩阵中源实体对应的每一行元素,降序排序,最上面的就是对其的目标数据。
考虑依赖关系的匹配方法(稳定的匹配方法)
对于两个集合中有同样大小的成员,每一个都提供了对立集合中成员的排名,两个集合中存在一个映射,没有任何一对来自另一边的成员可以被匹配到对方。集合中的实体对叫做稳定匹配。
匹配算法
在第一轮中,每个源实体找出最匹配的目标实体,并建立短暂的链接。
逐次确定最匹配的目标实体,只考虑未匹配的目标实体,直到每一个源实体都找到匹配的目标实体。
上图中,给定相似性矩阵M,源实体u1,u2,u3和目标实体v1,v2,v3。首先找出每一个最相似的实体对,暂时进行连接。然后为源实体u1找出最相似的目标实体v1,得到(2)。由于v1已经作为相似实体与u1连接,所以u2需要换一个目标实体,得到(3)。最后,根据同样的方法,u3连接了v3。
以这种方式可以保证每个实体都匹配。
3.实验
数据集
DBP15K与SRPRS
利用fastText作为词嵌入方法,用MUSE(https://github.com/facebookresearch/MUSE)获得多语言词嵌入。
实验结果
从实验结构可以看出,本文较之前的11个方法都有改进,同时也进行了融合方法测试,没有集体对齐对对齐结果的影响很大,其中去掉字符串信息对尸体对其的影响最大。