知识图谱推荐20200422

本节介绍:依次学习--依次学习的方法主要有:Deep Knowledge-aware Network(DKN)

论文下载地址:https://arxiv.org/abs/1801.08284v1

1.DKN原理

1.1背景

推荐系统最初是为了解决互联网信息过载的问题,给用户推荐其感兴趣的内容,在新闻推荐领域主要有三个突出问题需要解决:

(1)新闻文章的的时间敏感性,导致传统的基于ID的协同过滤算法失效;

(2)用户在阅读新闻时候是带有 明显的倾向性的,一般一个用户阅读过的文章会属于某些特定的主题,如何利用用户的阅读历史记录去预测候选文章的兴趣是推荐系统的关键;

(3)新闻类文章的语言都有高浓度的浓缩性,包含大量的知识实体和常识,用户可能选择阅读与曾将看过的文章具有紧密的知识层面的关联的文章,以往的模型推荐 只停留在衡量新闻的语义和词共现的关联上,很难考虑隐藏的知识层面的联系;

因此,Deep Knowledge—aware Network(DKN)模型中加入新闻之间知识层面的相似度量,来给用户更精确地推荐新闻;

1.2 基础概念

1.2.1 知识图谱特征学习(Knowledge Graph Embedding)

知识图谱特征学习为知识图谱中每个实体和关系得到一个低维向量,同时保持图中原有的结构或语义信息。一般而言,KG的特征学习分为基于距离的翻译模型和基于语义的匹配模型。

基于距离的翻译模型(distance-based translational models)

这类模型使用基于距离的评分函数评估三元组的概率,将尾节点视为头结点和关系翻译得到结果,代表有transE、transH、transR等

知识图谱推荐20200422

基于语义的匹配模型((semantic-based matching models))

这类模型使用基于相似度的评分函数评估三元组的概率,将实体和关系映射到隐语义控件中进行相似度度量,这类方法有SME、NTN、MLP、NAM等

知识图谱推荐20200422

1.2.2基于CNN的句子特征提取

DKN中提取句子特征的CNN源自于kim Cnn,用句子所包含词的词向量组成的二维矩阵,经过一层卷积操作之后再做一次max-over-time的pooling操作得到句子向量,如下图

知识图谱推荐20200422

1.3问题定义

给定义一个用户user,他点击历史记为{t1,t2,t3.....tn}是该用户该去一段时间内曾点击过的新闻标题,N代表用户点击过的新闻的总数,每个标题都是一个词序列t={w1,w2...wn},标题中的单词有的对应知识图谱中的一个实体,举例说明,标题《Trump praises Las Vegas medical team》中的Trump与知识图谱中的实体‘Donald Trump’对应,Las和Vegas与实体Las Vagas对应,本文要解觉得问题时给定用户的点击历史,以及标题单词和知识图谱中实体的关联,我们要预测的是:一个用户i是否会点击一个特定的新闻tj。

1.4 模型框架

知识图谱推荐20200422

其中,DKN的网络输入有两个:候选新闻集合,用户点击过的新闻标题序列。输入数据通过KCNN来提取特征,之上是一个attention层,计算候选新闻向量与用户点击历史向量之间attention权重,在顶层拼接两部分向量之后,用DNN计算用户点击此新闻的概率,接下来,我们介绍一下DKN模型中的一些细节。

attention

1.4.1 知识抽取(Knowledge Distillation)

知识提取过程有三方面,一是得到标题中每个单词的embedding二是得到标题中每个单词对应的实体的embedding三是得到每个单词的上下文embedding。每个单词对应的embedding可以通过Word2vec预训练的模型得到,这里我们主要讲后两部分。

实体embedding

实体特征即标题中每个单词对应的实体的特征,通过下面四个步骤得到:

(1)识别出标题中的实体并利用实体链接技术消除歧义

(2)根据已有知识图谱,得到与标题中涉及的实体链接在一个step之内的所有实体所形成的子图。

(3)构建好知识子图之后,利用基于距离的翻译模型得到子图中每个实体embedding,

(4)得到标题中每个单词对应的实体embedding

过程如下:

知识图谱推荐20200422

上下文embedding

尽管目前现有的知识图谱特征学习方法得到的向量保存了绝大数的结构信息,但还有一定的信息损失,为了更好的利用一个实体在原知识图谱的位置信息,文中还提到了利用一个实体的上下文来进一步的刻画每一个实体,具体来说,即用每个实体相连的实体embedding的平均值来进一步刻画每个实体,计算公式如下:

知识图谱推荐20200422

图示如下:

知识图谱推荐20200422

1.4.2 新闻特征提取KCNN