Glove

CBOW,Skip-Gram新型模型的提出，通过词嵌入的方式一定程度解决了analogy的问题。

不过这些新模型并没利用 $co-occurrence$ 对于全局的统计数据。

Glove的目的是既利用好 $co-occurrence$ 计数的全局统计数据，又将其与CBOW，Skip-Gram的机制联系起来，归而言之，是更多信息的联合。

Glove论文中列出了一张表：

Probability & Ratio	k=solid	k=gas	k=water	k=fashion
$P(k	ice)$	$1.9\times10^{-4}$	$6.6\times10^{-5}$	$3.0\times 10^{-3}$
$P(k	stream)$	$2.2\times 10^{-5}$	$7.8\times 10^{-4}$	$2.2\times 10^{-3}$
$P(k	ice)/P(k	stream)$	$8.9$	$8.5\times10^{-2}$

Water, fashion在 $P(k|ice)/P(k|stream)$ 呈现的数值接近于1，侧面说明，water,fashion在区分 $ice,stream$ 方面的效果并不明显。

能够呈现出较大区分度的词汇，其在 $P(k|ice)/P(k|stream)$ 数值上并不徘徊在1附近。

上述的 $ratio$ 关系，能够比较直观的表达出词汇之间的相关性（solid to ice;gas to stream）及不相关性（water and fashion to ice and stream）。

Glove模型的核心思想就是利用这个比例关系来体现相关性：

$F(w_i,w_j,\hat w_k)=\frac{P_{ik}}{P_{jk}} \qquad\qquad (1)$

$w_i,w_j$ 是center words, $\hat w_k$ 指代context word，皆为满足 $w \in R^d$ 的词向量。

（1）式用更自然的方式可以写为：

$F(w_i-w_j,\hat w_k)=\frac{P_{ik}}{P_{jk}}\qquad\qquad(2)$

（2）式左边变量为向量，右边为常量，统一下可将左手边变量类型调换为常量 $(w_i-w_j)^T\hat w_k$

$F((w_i-w_j)^T\hat w_k)=\frac{P_{ik}}{P_{jk}}\qquad\qquad(3)$

假设（3）式左手边可满足：

$F((w_i-w_j)^T\hat w_k)=\frac{F(w_i^T\hat w_k)}{F(w_j^T\hat w_k)}\qquad(4)$

根据式(3),(4)可知：

$F(w_i^T\hat w_k)=P_{ik}=\frac{X_{ik}}{X_i}\qquad\qquad(5)$

$X_{ik}表示word_i,work_k同时出现的次数，X_i表示word_i出现的总次数$

（4）式的成立可借助于设立 $F=exp$ ,结合（5）式可得：

$w_i^T\hat w_k=log(P_{ik})=log(X_ik)-log(X_i)\qquad (6)$

（6）式除去 $log(X_i)$ 以外满足了交换对称性，注意到 $log(X_i)$ 与 $k$ 无关，可以将其归入 $w_i$ 对应的bias $b_i$ 中，再添加个bias对应 $\hat w_k$ ，如下????

$w_i^T\hat w_k +b_i+\hat b_k = log(X_{ik})\qquad(7)$

这个定义略有问题在于如果 $X_{ik}=0，log(X_{ik})\rightarrow - \infin$

此问题可以在算法中将 $X_{ik}->X_{ik}+1$ 做一个 $shift$ 解决。

定义损失函数：

$J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\hat w_j+b_i+\hat b_j - logX_{ij})^2\qquad (8)$

$f(X_{ij})为每个X_{ij}对应的权值$ ，较少出现的单词对，应该比经常出现的单词对，对模型参数的影响要小。

经常出现的单词对，也不能说对模型的参数影响随着其频次一直增加。

$f(x)=\begin{cases} (x/x_{max})^\alpha& \text{if }x<x_{max}\\ 1& \text{otherwise}\end{cases}\qquad(9)$

$x_{max}$ 是自变量 $x$ 中的最大值。

g-love-Glove

????：为了满足最初提出的(1)式来度量词汇之间的相关性，设置了 $F()=exp$ , $F(w_i^Tw_k)=P_{ik}$ 这些关系，最终推向????词向量 $w_i,w_k$ 要满足(7)式。

那就是说为了(1)式度量有效，词向量的训练需要满足（7）式，损失函数也是在此基础上设立的。

这个模型和CBOW,SG模型的关联性：

在跳字模型当中，output基于softma，损失函数基于交叉熵。

$Q_{ij}=\frac{exp(w_i^T\hat w_j)}{\sum_{k=1}^Vexp(w_i^T\hat w_k)}\qquad\qquad\qquad\quad(10)$

$J=-\sum_{i\in corpus,i\in context(j)}logQ_{ij}\qquad(11)$

这种滑动窗口的方式并没有将相同的 $i,j$ 打包计算损失来的有效率，（11）可写为

$J=-\sum_{i=1}^V\sum_{j=1}^VX_{ij}logQ_{ij}\qquad\qquad(12)$

$X_{ij}$ 对应的次数，就是打包计算了Ծ ̮ Ծ。

根据 $P_{ij}=X_{ij}/X_i$ ，继续改写

$J=-\sum_{i=1}^VX_i\sum_{j=1}^VP_{ij}logQ_{ij}=\sum_{i=1}^VX_iH(P_i,Q_i)\qquad (13)$

$H(P_i,Q_i)$ 是 $P_i,Q_I$ 的交叉熵，这只是一种损失的计量方式，这种方式对 $Q$ 进行归一化的计算成本大（需要所有词汇表数量的exp求和），尝试一种另外的计量方式：

$\hat J = \sum_{i,j}X_i(\hat P_{ij}-\hat Q_{ij})^2\qquad\qquad (14)$

$\hat P_{ij}=X_{ij},\hat Q_{ij}=exp(w_i^T\hat w_j)$ （这里去掉了归一化操作）

$X_{ij}$ 有时候很大，取对数有利于对其进行缩减：

$\hat J=\sum_{i,j}X_i(log\hat P_{ij}-log \hat Q_{ij})^2$

$\quad=\sum_{i,j}X_i(w_i^T\hat w_j-logX_{ij})^2\qquad(15)$

Mikolov论文中思想传递出，将 $X_i$ 这一权值用 $f(X_{ij})$ 替换更为有效。

$\hat J = \sum_{i,j}f(X_{ij})(w_i^T-logX_{ij})^2\qquad(16)$

发现式子(16)与(8)是一致的。

关联性就建立起来啦Ծ ̮ Ծ。

Co-occurrence+word-bags~

Reference:

Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.

g-love-Glove

Glove

相关推荐