DKRL论文：实体描述的知识图谱的表示学习_笔记

笔记
问题形式化
连续词袋模型
卷积神经网络编码

笔记

利用实体描述信息的优点，在实体的编码中增加了描述信息的编码。开发了两个编码一个是CBOW词袋模型和CNN卷积网络来获得实体描述的语义信息。结果都优于现有的baseline。尤其是在zero-shot中

使用的数据集：Google的Freebase数据集。
论文的主要解决的问题就是如何将描述信息和事实信息结合，推出了DKRL模型，对于事实元祖，论文使用了典型的TransE模型，通过最大似然值来获得实体和关系的embedding。对于描述信息也需要获得其embedding，使用了连续词袋模型（CBOW）和深度卷积网络，相比于CBOW忽略了文本中的词序，卷机模型将词序考虑了进去。

zero-shot：当一些实体对于现有的KGs来说是新的并且仅仅带有描述信息。现有的KGs的RL方法不能表示这些新的实体，因为没有学习获得他们的embedding。但是DKRL模型能够从它们的描述信息上建立这些实体的表示。

此前的翻译模型都仅仅考虑了实体之间的结构化信息，而忽略了丰富的以实体描述编码的信息，并且由于实体表示的限制，当元组中缺少一个实体不在KGs时，这些模型不能够验证这些元祖。而DKRL可以处理这个问题。

问题形式化

DKRL论文：实体描述的知识图谱的表示学习_笔记

连续词袋模型

首先挑选每个实体描述的前n个关键词（TF-IDF来获取文本的典型关键词）简单的将所有单词的embeddings相加来得到实体描述的embedding。
DKRL论文：实体描述的知识图谱的表示学习_笔记

卷积神经网络编码

由于CBOW忽略了词序的信息，而且容易受到提取的关键词的质量影响，所以还使用CNN来获取实体描述编码。
整体结构分为5层。
第一层预处理和词表示，首先从原始文本中删除所有禁用词，然后对描述中所有的短语进行表述。短语是文中出现的一些词，这些词原本来自于训练集中的所有实体的集合。使用word2vec来初始化词的embedding
卷积（暂时不了解）
池化
训练：使用了如下的评分函数
DKRL论文：实体描述的知识图谱的表示学习_笔记
构建负样本，梯度下降法来获得向量的最优化。

zero-shot模式下，将测试集分为了四种类型，一个是（e,e）头尾都在训练集，（d,e）头是一个新的实体，尾部存在于训练集中，（e,d）,（d,d）这四种

实体预测和关系预测评估结果 DKRL论文：实体描述的知识图谱的表示学习_笔记
CBOW和CNN都只使用了实体描述信息，CNN+TransE表示使用了两者的函数之和。

实体分类结果
是将实体的类别进行分类
DKRL论文：实体描述的知识图谱的表示学习_笔记

DKRL论文：实体描述的知识图谱的表示学习_笔记