CS224N笔记 第二讲 词向量的表示word2vec

记录一下几个比较重要的问题防止自己忘记。

  1. skip-grams模型
    Predict context words given target (position independent)。由目标向量 来推导出上下文词的概率。
    CS224N笔记 第二讲 词向量的表示word2vec
    定义一个大小为2m的窗口,有一个中心词,左右各为M个词。
    下面就是目标函数,最大似然概率,就是让这2m个词成为中心词的概率最大化。这里连乘自然默认这些词是独立同分布的,但是上下文词是有位置顺序的以及会相互影响的,这里是忽略的。
    CS224N笔记 第二讲 词向量的表示word2vec
    CS224N笔记 第二讲 词向量的表示word2vec
    这里连乘自然默认这些词是独立同分布的,但是上下文词是有位置顺序的以及会相互影响的,这里是忽略的。
    softmax 概率 CS224N笔记 第二讲 词向量的表示word2vec
    c是指中心词,O是指他的一个上下文词,softmax 概率自己理解,exp 保证是正数,分母连加可以理解为为了得到概率。
    CS224N笔记 第二讲 词向量的表示word2vec
    W 和W’ 矩阵其实 都是 d*V的,V是指样本词空间大小,d是指向量维度,w可以理解为所有词作为中心词的向量,w’是指词作为上下文词的向量。所以每个词是有两个向量的,可以简化计算。
    下面就是求梯度的过程:
    CS224N笔记 第二讲 词向量的表示word2vec
    CS224N笔记 第二讲 词向量的表示word2vec
    CS224N笔记 第二讲 词向量的表示word2vec

CS224N笔记 第二讲 词向量的表示word2vec
这里只列出了对Vc求梯度的计算过程,对Vo求梯度自己计算。