Glove:Global Vectors for Word Representation

related work
1)global matric factorization 例如LSA(latent semantic analysis)虽然利用了statistics of the corpus,但在word analogy task上表现不好;LSA应用SVD的矩阵分解技术对大矩阵降维,但对所有单词的统计权重都是一样大的,而且计算代价很大。
2) local context window method 例如skip-gram,虽然better on analogy task,但只在local context window中训练而忽略gloval co-ocurrence counts。

Glove:Global Vectors for Word Representation
由上图推断,由概率的比值而不是概率本身去学习词向量可能是一个更恰当的方法。

Glove:Global Vectors for Word Representation

虽然很多人声称GloVe是一种无监督(unsupervised learing)的学习方式(因为它确实不需要人工标注label),但其实它还是有label的,这个label就是损失函数中的log(Xij)log( X_{ij} )
最终学习到的是wwwˉ\bar w ,因为X是对称的,以从原理上讲wwwˉ\bar w是也是对称的,他们唯一的区别是初始化的值不一样,而导致最终的值不一样。所以这两者其实是等价的,都可以当成最终的结果来使用。但是为了提高鲁棒性,我们最终会选择两者之和w+wˉw + \bar w作为最终的vector(两者的初始化不同相当于加了不同的随机噪声,所以能提高鲁棒性)。
reference:https://blog.****.net/coderTC/article/details/73864097
https://www.fanyeong.com/2018/02/19/glove-in-detail/
https://zhuanlan.zhihu.com/p/42073620