词嵌入模型之GloVe

GloVe全称Global Vectors for Word Representation,是一个基于全局词频统计的word representation工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似度。通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。

GloVe的非严谨公式推导

 我们先定义一些变量:

  • 词嵌入模型之GloVe 表示单词jj出现在单词ii的上下文中的次数;
  • 词嵌入模型之GloVe 表示单词ii的上下文中所有单词出现的总次数,即 词嵌入模型之GloVe
  • 词嵌入模型之GloVe,即表示单词jj出现在单词ii的上下文中的概率;

有了这些定义之后,我们来看一个表格: 

词嵌入模型之GloVe

直接给出论文结论:

我们可以使用词嵌入模型之GloVe观察出单词 词嵌入模型之GloVe 和单词 词嵌入模型之GloVe 相对于单词 词嵌入模型之GloVe 哪个更相关。

因此,以上推断可以说明通过概率的比例而不是概率本身去学习词向量可能是一个更恰当的方法,因此下文所有内容都围绕这一点展开。于是为了捕捉上面提到的概率比例,我们可以构造如下函数:词嵌入模型之GloVe

因为向量空间是线性结构的,所以要表达出两个概率的比例差,最简单的办法是作差,于是我们得到:词嵌入模型之GloVe

这时我们发现公式5的右侧是一个数量,而左侧则是一个向量,于是我们把左侧转换成两个向量的内积形式:词嵌入模型之GloVe

由于共现矩阵是对称矩阵,因此函数词嵌入模型之GloVe需要满足同态特性:词嵌入模型之GloVe,结合上式,得到:词嵌入模型之GloVe


词嵌入模型之GloVe,于是我们有:词嵌入模型之GloVe

此时,我们发现因为等号右侧词嵌入模型之GloVe存在,上式仍不满足对称性,且词嵌入模型之GloVe只和词嵌入模型之GloVe有关,于是我们可以针对词嵌入模型之GloVe增加一个bias term 词嵌入模型之GloVe把它替换掉,于是我们有:词嵌入模型之GloVe,额还是不满足对称性,继续针对词嵌入模型之GloVe增加一个bias term词嵌入模型之GloVe,从而得到最终公式:

词嵌入模型之GloVe
至此,我们已经用不太严谨的方式推导出了GloVe的目标函数。

GloVe的目标函数

通过上面的推导,很容易得到目标函数:词嵌入模型之GloVe

这个loss function的基本形式就是最简单的mean square loss,只不过在此基础上加了一个权重函数词嵌入模型之GloVe,那么这个函数起了什么作用,为什么要添加这个函数呢?我们知道在一个语料库中,肯定存在很多单词他们在一起出现的次数是很多的(frequent co-occurrences),那么我们希望:

  • 这些单词的权重要大于那些很少在一起出现的单词(rare co-occurrences),所以这个函数要是非递减函数(non-decreasing);
  • 我们不希望这个权重过大(overweighted),当到达一定程度之后应该不再增加;
  • 如果两个单词没有在一起出现,也就是词嵌入模型之GloVe,那么他们应该不参与到loss function的计算当中去,即满足词嵌入模型之GloVe

满足以上两个条件的函数有很多,作者采用了如下形式的分段函数:

词嵌入模型之GloVe

词嵌入模型之GloVe

这篇论文中的所有实验,词嵌入模型之GloVe的取值都是0.75,词嵌入模型之GloVe取值都是100。以上就是GloVe的实现细节

Glove与LSA、word2vec的比较

 LSA是一种比较早的count-based的词向量表征工具,它也是基于co-occurance matrix的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,而我们知道SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。而word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。从这篇论文给出的实验结果来看,GloVe的性能是远超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。