DKRL论文:实体描述的知识图谱的表示学习_笔记
笔记
利用实体描述信息的优点,在实体的编码中增加了描述信息的编码。开发了两个编码一个是CBOW词袋模型和CNN卷积网络来获得实体描述的语义信息。结果都优于现有的baseline。尤其是在zero-shot中
使用的数据集:Google的Freebase数据集。
论文的主要解决的问题就是如何将描述信息和事实信息结合,推出了DKRL模型,对于事实元祖,论文使用了典型的TransE模型,通过最大似然值来获得实体和关系的embedding。对于描述信息也需要获得其embedding,使用了连续词袋模型(CBOW)和深度卷积网络,相比于CBOW忽略了文本中的词序,卷机模型将词序考虑了进去。
zero-shot:当一些实体对于现有的KGs来说是新的并且仅仅带有描述信息。现有的KGs的RL方法不能表示这些新的实体,因为没有学习获得他们的embedding。但是DKRL模型能够从它们的描述信息上建立这些实体的表示。
此前的翻译模型都仅仅考虑了实体之间的结构化信息,而忽略了丰富的以实体描述编码的信息,并且由于实体表示的限制,当元组中缺少一个实体不在KGs时,这些模型不能够验证这些元祖。而DKRL可以处理这个问题。
问题形式化
连续词袋模型
首先挑选每个实体描述的前n个关键词(TF-IDF来获取文本的典型关键词)简单的将所有单词的embeddings相加来得到实体描述的embedding。
卷积神经网络编码
由于CBOW忽略了词序的信息,而且容易受到提取的关键词的质量影响,所以还使用CNN来获取实体描述编码。
整体结构分为5层。
第一层预处理和词表示,首先从原始文本中删除所有禁用词,然后对描述中所有的短语进行表述。短语是文中出现的一些词,这些词原本来自于训练集中的所有实体的集合。使用word2vec来初始化词的embedding
卷积 (暂时不了解)
池化
训练:使用了如下的评分函数
构建负样本,梯度下降法来获得向量的最优化。
zero-shot模式下,将测试集分为了四种类型,一个是(e,e)头尾都在训练集,(d,e)头是一个新的实体,尾部存在于训练集中,(e,d),(d,d)这四种
实体预测和关系预测 评估结果
CBOW和CNN都只使用了实体描述信息,CNN+TransE表示使用了两者的函数之和。
实体分类 结果
是将实体的类别进行分类