CS224N笔记 第二讲 词向量的表示word2vec
记录一下几个比较重要的问题防止自己忘记。
-
skip-grams模型
Predict context words given target (position independent)。由目标向量 来推导出上下文词的概率。
定义一个大小为2m的窗口,有一个中心词,左右各为M个词。
下面就是目标函数,最大似然概率,就是让这2m个词成为中心词的概率最大化。这里连乘自然默认这些词是独立同分布的,但是上下文词是有位置顺序的以及会相互影响的,这里是忽略的。
这里连乘自然默认这些词是独立同分布的,但是上下文词是有位置顺序的以及会相互影响的,这里是忽略的。
softmax 概率
c是指中心词,O是指他的一个上下文词,softmax 概率自己理解,exp 保证是正数,分母连加可以理解为为了得到概率。
W 和W’ 矩阵其实 都是 d*V的,V是指样本词空间大小,d是指向量维度,w可以理解为所有词作为中心词的向量,w’是指词作为上下文词的向量。所以每个词是有两个向量的,可以简化计算。
下面就是求梯度的过程:
这里只列出了对Vc求梯度的计算过程,对Vo求梯度自己计算。