您的位置: 首页 > 文章 > CS224N笔记第二讲词向量的表示word2vec

CS224N笔记第二讲词向量的表示word2vec

分类: 文章 • 2024-01-01 14:54:40

记录一下几个比较重要的问题防止自己忘记。

skip-grams模型
Predict context words given target (position independent)。由目标向量来推导出上下文词的概率。

定义一个大小为2m的窗口，有一个中心词，左右各为M个词。
下面就是目标函数，最大似然概率，就是让这2m个词成为中心词的概率最大化。这里连乘自然默认这些词是独立同分布的，但是上下文词是有位置顺序的以及会相互影响的，这里是忽略的。

这里连乘自然默认这些词是独立同分布的，但是上下文词是有位置顺序的以及会相互影响的，这里是忽略的。
softmax 概率
c是指中心词，O是指他的一个上下文词，softmax 概率自己理解，exp 保证是正数，分母连加可以理解为为了得到概率。

W 和W’ 矩阵其实都是 d*V的，V是指样本词空间大小，d是指向量维度，w可以理解为所有词作为中心词的向量，w’是指词作为上下文词的向量。所以每个词是有两个向量的，可以简化计算。
下面就是求梯度的过程：

CS224N笔记第二讲词向量的表示word2vec
这里只列出了对Vc求梯度的计算过程，对Vo求梯度自己计算。