http://blog.****.net/pipisorry/article/details/76147604

word2vec简介

深度学习在自然语言处理中第一个应用：训练词嵌入。通过词嵌入的词表示方式，大量的nlp领域的任务都得到了提升。Google 的 Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出 Word2Vec，就成为了深度学习在自然语言处理中的基础部件。

目前官方最新的word2vec工具包发布于2013年，为c语言版本，此外还有非官方版本：python版本和java版本。

Word2Vec 的基本思想是把自然语言中的每一个词，表示成一个统一意义统一维度的短向量。至于向量中的每个维度也许对应于世界上的一些最基本的概念。一个人读书时，如果遇到了生僻的词，一般能根据上下文大概猜出生僻词的意思，而 Word2Vec 正是很好的捕捉了这种人类的行为。

word2vec工具包输入是一个文本文件，称为训练语料，输出是一个词典，词典中包含训练语料中出现的单词以及它们的词嵌入表示。单词的词嵌入表示，就是用一个n维的实数向量来代表一个单词，单词之间的语义关系可以通过词嵌入体现出来，所以，要衡量词嵌入好与不好，可以观察词嵌入可以多大程度体现单词的语义信息。使用word2vec训练词向量的一个基本假设就是分布式假设，分布式假设是说词语的表示反映了它们的上下文，也就是它认为，有相似上下文的单词的语义也是相近的。

使用word2vec训练出的词嵌入有两个特点：

体现了语义相似关系，如计算距离“red”最近的词嵌入，结果就是“white”，“black”等表示颜色的单词。
体现了语义平移关系，如计算距离“woman”-“man”+“king”最近的词嵌入，结果就是“queen”。

在介绍word2vec前，先介绍一些基础知识，包括词向量和语言模型。然后介绍word2vec训练词嵌入时可以选择的四种模型，分别介绍它们的模型结构，以及使用梯度更新训练过程的数学推导。

词向量和语言模型

词向量

NLP（Natural Language Processing）问题要转化为机器学习的问题，首先就要把单词数学化表示,就是用n维实数向量来代表一个单词，常见的词向量有以下两种：

One-hot Representation

例如： “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]

“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

One-hot表示使用了单词在词表中的编号信息，编码方式如下：向量长度为词表大小，单词在词表中的编号对应的那一个维度为1，其余为0。

One-hot表示存在两个问题：

1.维度比较大,尤其在用于神经网络的一些算法时，出现“维数灾难”。

2.词汇鸿沟：任意两个词之间都是孤立的，不能体现词和词之间的关系（因为编码过程仅仅使用了它们在词表中的编号信息）。

Distributional Representation

例如： [0.792, −0.177, −0.107, 0.109, 0.542, …]，每个维度用一个实数值表示

克服了One-hot表示存在的两个问题：

1.解决了维度大的问题：常见维度50或者100。

2.解决了“词汇鸿沟”问题：可以通过计算向量之间的距离（欧式距离、余弦距离等）来体现词与词的相似性。

这样的词向量称为词嵌入（word-embedding），那么如何训练这样的词向量呢？我们可以通过训练语言模型的同时，得到词向量。

接下来本文将介绍语言模型的概念，并介绍几种常见的语言模型。

语言模型

语言模型其实就是判断一句话是不是正常人说出来的。用数学符号描述为：

给定一个字符串“ $w_{1}, w_{2}, \dots, w_{t}$ ”,计算它是自然语言的概率 $p (w_{1}, w_{2}, \dots, w_{t})$ ，一个很简单的推论是：

p (w 1, w 2, \dots, w t) = p (w 1) \cdot p (w 2 | w 1) \cdot p (w 3 | w 1, w 2) \cdot \dots \cdot p (w t | w 1, w 2, \dots, w t - 1)

简单表示为：p(s)= $p (w_{1}, w_{2}, \dots, w_{t})$ = $\prod_{i = 1}^{t} p (w_{i} | C o n t e x t_{i})$

从上面的公式可以看出，建立语言模型要解决的核心问题就是如何计算 $p (w_{i} | C o n t e x t_{i})$ ?

N-gram语言模型

该模型基于这样一种假设：某个词的出现只与前面N-1个词相关，而与其它任何词都不相关。整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

常用的是二元的Bi-Gram和三元的Tri-Gram。高于四元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

怎么得到P(Wn|W1W2…Wn-1)呢？一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate）了。即P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))。剩下的工作就是在训练语料库中数数儿了，即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。

一个bigram的例子，假设语料库总词数为 $13748$ ：

深度学习：词嵌入word2vec

P (I w a n t t o e a t C h i n e s e f o o d) = P (I) * P (w a n t | I) * P (t o | w a n t) * P (e a t | t o) * P (C h i n e s e | e a t) * P (f o o d | C h i n e s e) = (3437 / 13748) * (1087 / 3437) * (786 / 1215) * (860 / 3256) * (19 / 938) * (120 / 213) = 0.000154171

存在的问题：

稀疏问题：假设词表中有10000个词，如果是bigram，那么可能的N-gram就有100000000个，如果是trigram，那么可能的N-gram就有1000000000000个，对于其中的很多词对的组合，在语料库中都没有出现，根据最大似然估计得到的概率将会是0，这会造成很大的麻烦，在算句子的概率时一旦其中的某项为0，那么整个句子的概率就会为0，于是我们的模型只能算可怜兮兮的几个句子，而大部分的句子算得的概率是0。suffers from data sparsity and high dimensionality.

解决办法：数据平滑（data Smoothing），数据平滑的目的有两个：一个是使所有的N-gram概率之和为1，使所有的N-gram概率都不为0。

[N-gram模型]

某小皮

word2vec模型与推导

N-gram模型是基于统计的语言模型，无法得到单词的词嵌入。接下来介绍的语言模型会把词嵌入作为输入（初始的词嵌入是随机值），训练语言模型的同时也在训练词嵌入，最终可以同时得到语言模型和词嵌入。

word2vec也是一种语言模型，在训练语言模型的同时得到词嵌入。word2vec工具包提供了四种可选的训练模型，分别是由两种模型（CBOW，Skip-gram），两种方法（Hierarchical Softmax，Negative Sampling）（只是用Hierarchical Softmax和负采样加速训练计算）组合而成：[CBOW+Hierarchical Softmax] [CBOW+Negative Sampling] [Skip-gram+Hierarchical Softmax] [Skip-gram+Negative Sampling]

神经网络语言模型NNLM(Neural Network Language Model)

训练语言模型的最经典之作[Bengio, Yoshua, et al. "A neural probabilistic language model." JMLR2003]或者在这里[Bengio, Yoshua, Schwenk, Holger, et al. Neural probabilistic language models. In Innovations in Machine Learning. Springer, 2006]。

这里实际就是CBOW模型。

深度学习：词嵌入word2vec

[Bengio, Yoshua, et al. "A neural probabilistic language model." JMLR2003] [Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." ICML2014]

Bengio 用了一个三层的神经网络来构建语言模型，同样也是 n-gram 模型（即假设某个词的出现只与前面N-1个词相关，而与其它任何词都不相关）。

图中最下方的 $w_{t - n + 1}, \dots, w_{t - 2}, w_{t - 1}$ 就是前 $n - 1$ 个词。现在需要根据这已知的 $n - 1$ 个词预测下一个词 $w_{t}$ 。 $C (w)$ 表示词 $w$ 所对应的词向量，整个模型中使用的是一套唯一的词向量，存在矩阵 $C$ （一个 $| V | \times m$ 的矩阵）中。其中 $| V |$ 表示词表的大小（语料中的总词数）， $m$ 表示词向量的维度。 $w$ 到 $C (w)$ 的转化就是从矩阵中取出一行。every word is mapped to a unique vector, represented by a column in a matrix W . The column is indexed by position of the word in the vocabulary. The concatenation or sum of the vectors is then used as features for prediction of the next word in a sentence. 就是TF中的embedding_lookup函数方法。

网络的第一层（输入层）是将 $C (w_{t - n + 1}), \dots, C (w_{t - 2}), C (w_{t - 1})$ 这 $n - 1$ 个向量首尾相接拼起来，形成一个 $(n - 1) m$ 维的向量，下面记为深度学习：词嵌入word2vec 。或者average也可以。

网络的第二层（隐藏层）就如同普通的神经网络，直接使用 $d + H x$ 计算得到。 $d$ 是一个偏置项。在此之后，使用 $\tanh$ 作为**函数。

网络的第三层（输出层）一共有 $| V |$ 个节点，每个节点 $y_{i}$ 表示下一个词为 $i$ 的未归一化 log 概率。最后使用 softmax **函数将输出值 $y$ 归一化成概率。最终， $y$ 的计算公式为： $y = b + W x + U \tanh (d + H x)$ 。

整个模型的多数计算集中在 $U$ 和隐藏层的矩阵乘法中。

hierarchical softmax加速

后面发表论文的 3 个工作，都有对这一环节的简化，提升计算的速度。如In practice, hierarchical softmax (Morin & Bengio, 2005; Mnih & Hinton, 2008; Mikolov et al., 2013c) is preferred to softmax for fast training.

[Morin, Frederic and Bengio, Yoshua. Hierarchical probabilistic neural network language model. Aistats2005] [Mnih, Andriy and Hinton, Geoffrey E. A scalable hierarchical distributed language model. In Advances in Neural Information Processing Systems2008]

the structure of the hierarical softmax is a binary Huffman tree, where short codes are assigned to frequent words.[Mikolov, Tomas, Sutskever, Ilya, et al. Distributed representations of phrases and their compositionality. NIPS2013c]

代码code.google.com/p/word2vec/ [Mikolov, Tomas, et al. Efficient estimation of word representations in vector space. arXiv 2013a]

用随机梯度下降法把这个模型优化出来就可以了，需要注意的是，一般神经网络的输入层只是一个输入值，而在这里，输入层 x 也是参数（存在 C 中），也是需要优化的。优化结束之后，词向量有了，语言模型也有了。

θ = (b, d,W,U, H,C)

深度学习：词嵌入word2vec

优点：

1.这样得到的语言模型自带平滑，无需传统 n-gram 模型中那些复杂的平滑算法。Bengio 在 APNews 数据集上做的对比实验也表明他的模型效果比精心设计平滑算法的普通 n-gram 算法要好 10% 到 20%。

2.词语间的相似性可以通过词向量体现，例如：语料中S1=“A dog is running in the room”出现了10000,次，S2= “A cat is running in the room”出现了0次，按照n-gram模型的做法，p(S1)肯定远大于p(S2)。而在NNLM中，两者非常接近，因为cat的词向量和dog非常接近，将词向量代入计算得到的结果就很接近。

其他几种模型如C&W 的 SENNA，M&H 的 HLBL，Mikolov 的 RNNLM，Huang 的语义强化都是在Bengio论文发表后受到启发并进行一定改进的模型[http://licstar.net/archives/328]。

总结

Word2Vec 的训练模型，看穿了，是具有一个隐含层的神经元网络（如下图）。它的输入是词汇表向量，当看到一个训练样本时，对于样本中的每一个词，就把相应的在词汇表中出现的位置的值置为1，否则置为0。它的输出也是词汇表向量，对于训练样本的标签中的每一个词，就把相应的在词汇表中出现的位置的值置为1，否则置为0。那么，对所有的样本，训练这个神经元网络。收敛之后，将从输入层到隐含层的那些权重，作为每一个词汇表中的词的向量。比如，第一个词的向量是（w1,1 w1,2 w1,3 ... w1,m），m是表示向量的维度。所有虚框中的权重就是所有词的向量的值。有了每个词的有限维度的向量，就可以用到其它的应用中，因为它们就像图像，有了有限维度的统一意义的输入。

深度学习：词嵌入word2vec

CBOW，它的做法是，将一个词所在的上下文中的词作为输入，而那个词本身作为输出，也就是说，看到一个上下文，希望大概能猜出这个词和它的意思。通过在一个大的语料库训练，得到一个从输入层到隐含层的权重模型。如下图所示，第l个词的上下文词是i，j，k，那么i，j，k作为输入，它们所在的词汇表中的位置的值置为1。然后，输出是l，把它所在的词汇表中的位置的值置为1。训练完成后，就得到了每个词到隐含层的每个维度的权重，就是每个词的向量。

深度学习：词嵌入word2vec

[如果看了此文还不懂 Word2Vec，那是我太笨]

两种模型和两种方法的分述

1 CBOW与Skip-gram模型

一个实例：窗口长度为2时：

两个模型都包含3层：输入层，投影层，输出层。

CBOW模型：已知上下文 $w_{t - 2}, w_{t - 1}, w_{t + 1}, w_{t + 2}$ ,预测当前词 $w_{t}$ 。对于一个样本，做一次预测，具体做法是：将所有的上下文单词的词向量加起来，得到投影层向量 $x_{w}$ ,由 $x_{w}$ 预测当前词出现的概率。

Skip-gram模型：已知当前词 $w_{t}$ ,预测上下文 $w_{t - 2}, w_{t - 1}, w_{t + 1}, w_{t + 2}$ 。对于一个样本，做4次预测，具体做法是：直接使用当前词的词向量作为投影层向量，得到投影层向量 $x_{w}$ ,由 $x_{w}$ 分别预测每个上下文单词出现的概率。

2 CBOW模型+Hierarchical Softmax方法

1.输入层：包含Context(w)中2c个词的词向量 $v (C o n t e x t (w)_{1}), v (C o n t e x t (w)_{2}), \dots, v (C o n t e x t (w)_{2 c}) \in R^{m}$ ，m表示词向量的长度。

2.投影层：将输入层的2c个词向量求和，即 $x_{w} = \sum_{i = 1}^{2 c} v (C o n t e x t (w)_{i}) \in R^{m}$

3.输出层：输出层对应一棵二叉树，它是以词典D中的词作叶子节点，以该词在语料中的频数作为权值构造的一棵Huffman树。这棵树中，叶子节点有N（=|D|）个，分别对应词典D中的词，非叶子节点有N-1个。

对一个样本进行预测的例子：

句子：我,喜欢,观看,巴西,足球,世界杯
w=足球

$d_{j}^{w} (0 或 1)$ :词w的第j-1个huffman编码，定义0为正类，1为负类。

$θ_{j}^{w} (\in R^{m})$ :词w的带权最短路径上第j个非叶子节点向量。

正类概率： $σ (x_{w}^{T} θ) = \frac{1}{1 + e^{- x_{w}^{T} θ}}$

负类概率： $1 - σ (x_{w}^{T} θ)$

“足球”叶子节点经过4次二分类，每次分类结果对应的概率为：

第一次： $p (d_{2}^{w} | x_{w}, θ_{1}^{w}) = 1 - σ (x_{w}^{T} θ_{1}^{w})$

第二次： $p (d_{3}^{w} | x_{w}, θ_{2}^{w}) = 1 - σ (x_{w}^{T} θ_{2}^{w})$

第三次： $p (d_{4}^{w} | x_{w}, θ_{3}^{w}) = 1 - σ (x_{w}^{T} θ_{3}^{w})$

第四次： $p (d_{5}^{w} | x_{w}, θ_{4}^{w}) = 1 - σ (x_{w}^{T} θ_{4}^{w})$

由Context(“足球”)预测“足球”出现的概率为：

$p (“ 足球 ” | C o n t e x t (“ 足球 ”)) = \prod_{j = 2}^{5} p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w})$

于是，对于词典中的每个词w有： $p (w | C o n t e x t (w)) = \prod_{j = 2}^{l^{w}} p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w})$

其中 $l_{w}$ 表示w的huffman编码长度+1（w的带权路径上的节点数），

p (d w j | x w, θ w j - 1) = {σ (x T w θ w j - 1) 1 - σ (x T w θ w j - 1), d w j = 0, d w j = 1

或者表示为： $p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w}) = [σ (x_{w}^{T} θ_{j - 1}^{w})]^{1 - d_{j}^{w}} [1 - σ (x_{w}^{T} θ_{j - 1}^{w})]^{d_{j}^{w}}$

对每个样本使用极大似然估计，于是模型的目标函数为：

f = \sum w \in C l o g \prod j = 2 l w {[σ (x T w θ w j - 1)] 1 - d w j \cdot [1 - σ (x T w θ w j - 1)] d w j} = \sum w \in C \sum j = 2 l w {(1 - d w j) \cdot l o g [σ (x T w θ w j - 1)] + d w j \cdot l o g [1 - σ (x T w θ w j - 1)]}

用随机梯度下降法求解：

令 $f (w, j) = (1 - d_{j}^{w}) \cdot l o g [σ (x_{w}^{T} θ_{j - 1}^{w})] + d_{j}^{w} \cdot l o g [1 - σ (x_{w}^{T} θ_{j - 1}^{w})]$

求出 $f (w, j)$ 关于 $θ_{j - 1}^{w}$ 和 $x_{w}$ 的梯度分别为：

$\frac{\partial f (w, j)}{\partial θ_{j - 1}^{w}} = [1 - d_{j}^{w} - σ (x_{w}^{T} θ_{j - 1}^{w})] \cdot x_{w}$

$\frac{\partial f (w, j)}{\partial x_{w}} = [1 - d_{j}^{w} - σ (x_{w}^{T} θ_{j - 1}^{w})] \cdot θ_{j - 1}^{w}$

参数更新公式：

$θ_{j - 1}^{w} := θ_{j - 1}^{w} + η \cdot \frac{\partial f (w, j)}{\partial θ_{j - 1}^{w}}$

$v (\tilde{w}) := v (\tilde{w}) + η \cdot \frac{\partial f (w, j)}{\partial x_{w}}, v (\tilde{w}) \in C o n t e x t (w)$

这里有两点要说明：

1.由于 $x_{w} = \sum_{\tilde{w} \in C o n t e x t (w)} v (\tilde{w})$ ,可以证明 $\frac{\partial f (w, j)}{\partial x_{w}} = \frac{\partial f (w, j)}{\partial v (\tilde{w})}$

2.参数更新时，要等所有的 $θ_{j - 1}^{w}$ 更新完成，然后更新 $v (\tilde{w})$

3 CBOW模型+Negative Sampling方法

输入层，投影层：同上一个模型。

输出层：输出层共有N（=|D|）个 “参数-节点”对，每个节点分别对应词典D中的词，每个参数表示相应节点的分类器的参数。例如： $θ^{u}$ 表示单词u的参数， $σ (x_{w}^{T} θ^{u})$ 表示 $x_{w}$ 被 $θ^{u}$ 预测为u的概率。

正样本、负样本：已知词w的上下文Context(w),需要预测w，因此，词w就是正样本，其他词都是负样本。然而，负样本非常多，至于怎么取，后面部分统一介绍。

给定一个样本(Context(w),w)，假定我们选定的负样本集为NEG(w) $\neq \emptyset$ ，我们希望最大化：

g (w) = \prod u \in {w} \cup N E G (w) p (u | C o n t e x t (w))

其中 $p (u | C o n t e x t (w)) = {\begin{matrix} σ (x_{w}^{T} θ^{u}) & , u = w \\ 1 - σ (x_{w}^{T} θ^{u}) & , u \neq w \end{matrix}$

可以看出，最大化g(w)，也就是让正样本概率最大化，负样本概率最小化。

我们定义： $L^{w} (u) = {\begin{matrix} 1 & , u = w \\ 0 & , u \neq w \end{matrix}$

则此模型的目标函数表示为：

f = \sum w \in C l o g g (w) = \sum w \in C l o g \prod u \in {w} \cup N E G (w) p (u | C o n t e x t (w)) = \sum w \in C l o g \prod u \in {w} \cup N E G (w) {[σ (x T w θ u)] L w (u) \cdot [1 - σ (x T w θ u)] 1 - L w (u)} = \sum w \in C \sum u \in {w} \cup N E G (w) {L w (u) \cdot l o g [σ (x T w θ u)] + [1 - L w (u)] \cdot l o g [1 - σ (x T w θ u)]}

用随机梯度下降法求解：

令 $f (w, u) = L^{w} (u) \cdot l o g [σ (x_{w}^{T} θ^{u})] + [1 - L^{w} (u)] \cdot l o g [1 - σ (x_{w}^{T} θ^{u})]$

求出 $f (w, u)$ 关于 $θ^{u}$ 和 $x_{w}$ 的梯度分别为：

$\frac{\partial f (w, u)}{\partial θ^{u}} = [L^{w} (u) - σ (x_{w}^{T} θ^{u})] \cdot x_{w}$

$\frac{\partial f (w, u)}{\partial x_{w}} = [L^{w} (u) - σ (x_{w}^{T} θ^{u})] \cdot θ^{u}$

参数更新公式：

$θ^{u} := θ^{u} + η \cdot \frac{\partial f (w, u)}{\partial θ^{u}}$

$v (\tilde{w}) := v (\tilde{w}) + η \cdot \frac{\partial f (w, u)}{\partial x_{w}}, v (\tilde{w}) \in C o n t e x t (w)$

与上一个模型相似，这里有两点要说明：

1.由于 $x_{w} = \sum_{\tilde{w} \in C o n t e x t (w)} v (\tilde{w})$ ,可以证明 $\frac{\partial f (w, u)}{\partial x_{w}} = \frac{\partial f (w, u)}{\partial v (\tilde{w})}$

2.参数更新时，要等所有的 $θ^{u}$ 更新完成，然后更新 $v (\tilde{w})$

4 Skip-gram模型+Hierarchical Softmax方法

输入层：只含当前样本的中心词w的词向量v(w) $\in R^{m}$

投影层：恒等投影，依然是v(w)

输出层：与“CBOW模型+Hierarchical Softmax方法”一样，也是一棵huffman树

首先定义： $p (C o n t e x t (w) | w) = \prod_{u \in C o n t e x t (w)} p (u | w)$

p(u|w)的求法类似于之前的“CBOW模型+Hierarchical Softmax方法”中求p(w|Context(w) )，之前是用 $x_{w}$

来预测w，现在是用v(w)来预测所有的u:

p (u | w) = \prod j = 2 l u p (d u j | v (w), θ u j - 1)

其中， $p (d_{j}^{u} | v (w), θ_{j - 1}^{u}) = [σ (v (w)^{T} θ_{j - 1}^{u})]^{1 - d_{j}^{u}} [1 - σ (v (w)^{T} θ_{j - 1}^{u})]^{d_{j}^{u}}$

于是模型的目标函数为：

f = \sum w \in C \sum u \in C o n t e x t (w) \sum j = 2 l u l o g {[σ (v (w) T θ u j - 1)] 1 - d u j \cdot [1 - σ (v (w) T θ u j - 1)] d u j} = \sum w \in C \sum u \in C o n t e x t (w) \sum j = 2 l u {(1 - d u j) \cdot l o g [σ (v (w) T θ u j - 1)] + d u j \cdot l o g [1 - σ (v (w) T θ u j - 1)]}

用随机梯度下降法求解：

令 $f (w, u, j) = {(1 - d_{j}^{u}) \cdot l o g [σ (v (w)^{T} θ_{j - 1}^{u})] + d_{j}^{u} \cdot l o g [1 - σ (v (w)^{T} θ_{j - 1}^{u})]}$

则 $f (w, u, j)$ 关于 $θ_{j - 1}^{u}$ 和 $v (w)$ 的梯度分别为：

$\frac{\partial f (w, u, j)}{\partial θ_{j - 1}^{u}} = [1 - d_{j}^{u} - σ (v (w)^{T} θ_{j - 1}^{u})] \cdot v (w)$

$\frac{\partial f (w, u, j)}{\partial v (w)} = [1 - d_{j}^{u} - σ (v (w)^{T} θ_{j - 1}^{u})] \cdot θ_{j - 1}^{u}$

参数更新公式：

$θ_{j - 1}^{u} := θ_{j - 1}^{u} + η \cdot \frac{\partial f (w, u, j)}{\partial θ_{j - 1}^{u}}$

$v (w) := v (w) + η \cdot \frac{\partial f (w, u, j)}{\partial v (w)}$

5 Skip-gram模型+ Negative Sampling方法

输入层，投影层：同上一个模型。

输出层：与“CBOW模型+Negative Sampling方法”一样，也是N（=|D|）个 “参数-节点”对。

首先定义： $p (C o n t e x t (w) | w) = \prod_{u \in C o n t e x t (w)} p (u | w)$

p(u|w)的求法类似于之前的“CBOW模型+Negative Sampling方法”中求p(w|Context(w) )，之前是用 $x_{w}$

来预测w，现在是用v(w)来预测所有的u:

p (u | w) = \prod z \in {u} \cup N E G (u) p (z | w)

其中, $p (z | w) = {\begin{matrix} σ (v (w)^{T} θ^{z}) & , u = z \\ 1 - σ (v (w)^{T} θ^{z}) & , u \neq z \end{matrix}$

于是模型的目标函数为：

f = \sum w \in C \sum u \in C o n t e x t (w) \sum z \in {u} \cup N E G (u) l o g {[σ (v (w) T θ z)] L u (z) \cdot [1 - σ (v (w) T θ z)] 1 - L u (z)} = \sum w \in C \sum u \in C o n t e x t (w) \sum z \in {u} \cup N E G (u) {L u (z) \cdot l o g [σ (v (w) T θ z)] + [1 - L u (z)] \cdot l o g [1 - σ (v (w) T θ z)]}

用随机梯度下降法求解：

令 $f (w, u, z) = {L^{u} (z) \cdot l o g [σ (v (w)^{T} θ^{z})] + [1 - L^{u} (z)] \cdot l o g [1 - σ (v (w)^{T} θ^{z})]}$

则 $f (w, u, z)$ 关于 $θ^{z}$ 和 $v (w)$ 的梯度分别为：

$\frac{\partial f (w, u, z)}{\partial θ^{z}} = [L^{u} (z) - σ (v (w)^{T} θ^{z})] \cdot v (w)$

$\frac{\partial f (w, u, z)}{\partial v (w)} = [L^{u} (z) - σ (v (w)^{T} θ^{z})] \cdot θ^{z}$

参数更新公式：

$θ^{z} := θ^{z} + η \cdot \frac{\partial f (w, u, z)}{\partial θ^{z}}$

$v (w) := v (w) + η \cdot \frac{\partial f (w, u, z)}{\partial v (w)}$

6 Negative Sampling方法

接下来介绍负样本是怎么选取的，见图3.7：

先看上面的线段，其中 $I_{1}, I_{2}, \dots, I_{n}$

为N(=|词典|)个相邻区间，总长度为1，区间

I_{i}

的长度

l e n (w_{i})

定义如下：

l e n (w) = [c o u n t e r (w)] 34 \sum u \in D [c o u n t e r (u)] 34

其中， $c o u n t e r (w)$

表示词w在语料C中出现的次数，加一个3/4次方是为了削弱极端高频词的影响。

再看下面的线段， $m_{i}$ 为等分点，M>>N，在 $m_{0}, m_{1}, \dots, m_{M - 1}$ 中随机取点 $m_{r}$ ，若 $m_{r}$ 落到了 $I_{k}$ 区间中，则取样本 $w_{k}$ ,用数学方式表示如下： $T a b l e (r) = w_{k} w h e r e m_{r} \in I_{k} ， r = 0, 1, 2, \dots, M - 1$

于是，每次随机生成一个数r(0<=r<M) ,则采样的样本为 $T a b l e (r)$ 。

[word2vec 原理篇]

某小皮

其它语言模型

C&W 的 SENNA

Ronan Collobert 和 Jason Weston 在 2008 年的 ICML 上发表的《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》。lz: 提出负采样的方法。

M&H 的 HLBL

　　Andriy Mnih 和 Geoffrey Hinton 在 2007 年和 2008 年各发表了一篇关于训练语言模型和词向量的文章。2007 年发表在 ICML 上的《Three new graphical models for statistical language modelling》。2008 年发表在 NIPS 上的《A scalable hierarchical distributed language model》则提出了一种层级的思想替换了 Bengio 2003 方法中最后隐藏层到输出层最花时间的矩阵乘法，在保证效果的基础上，同时也提升了速度。lz：主要提出了Hierarchical Softmax。

Mikolov 的 RNNLM语言模型

使用循环神经网络降低Bengio 2003 论文中的参数个数。

$w (t)$ 是句子中第 $t$ 个词的 One-hot representation 的向量，也就是说 $w$ 是一个非常长的向量，里面只有一个元素是 1。而下面的 $s (t - 1)$ 向量就是上一个隐藏层。最后隐藏层计算公式为：

s (t) = sigmoid (U w (t) + W s (t - 1))

w (t)

是一个词的 One-hot representation，那么

U w (t)

也就相当于从矩阵

U

中选出了一列，这一列就是该词对应的词向量。

循环神经网络的最大优势在于，可以真正充分地利用所有上文信息来预测下一个词，而不像前面的其它工作那样，只能开一个 n 个词的窗口，只用前 n 个词来预测下一个词。

缺陷：用起来却非常难优化，如果优化的不好，长距离的信息就会丢失，甚至还无法达到开窗口看前若干个词的效果。

隐藏层到输出层的巨大计算量，Mikolov 使用了一种分组的方法：根据词频将 $| V |$ 个词分成 $\sqrt{| V |}$ 组，先通过 $\sqrt{| V |}$ 次判断，看下一个词属于哪个组，再通过若干次判断，找出其属于组内的哪个元素。最后均摊复杂度约为 $o (\sqrt{| V |})$ ，略差于 M&H 的 $o (\log (| V |))$ ，但是其浅层结构某种程度上可以减少误差传递，也不失为一种良策。

[Mikolov, Tomas, et al. "Recurrent neural network based language model." Interspeech2010] code [RNNLM 完美支持中文]

了解 RNNLM，参考其博士论文《Statistical Language Models based on Neural Networks》是最好的选择。

另外还提出上下文相关的语言模型。鉴于句子太长，历史信息无法有效传播。提出了一个RNN-LDA上下文依赖(topic-conditioned RNNLM)的模型，模型通过添加前面词的主题信息作为上下文。They augment the contextual information into the conventional RNNLM via a real-valued input vector, which is the probability distribution computed by LDA topics for using a block of preceding text.

[Mikolov, Tomas, and Geoffrey Zweig. "Context dependent recurrent neural network language model." SLT2012]

段落embedding

考虑语义+词序使用vector来表示paragraph，并用于情感分类和信息检索。propose Paragraph Vector, an unsupervised framework that learns continuous distributed vector representations for pieces of texts. The texts can be of variable-length, ranging from sentences to documents.

Distributed Memory Model of Paragraph Vectors (PV-DM)，类似CBOW。

Distributed Bag of Words version of Paragraph Vector (PV-DBOW)，类似skip-gram。

实验中PV-DM模型效果很好，不过PV-DM和PV-DBOW一起用更好。

[Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." Proceedings of the 31st International Conference on Machine Learning (ICML-14). 2014.]

某小皮

不同语言模型的评价

Bengio 2003 使用了最朴素的线性变换，直接从隐藏层映射到每个词；C&W 简化了模型（不求语言模型），通过线性变换将隐藏层转换成一个打分；M&H 复用了词向量，进一步强化了语义，并用层级结构加速；Mikolov 则用了分组来加速。

from: http://blog.****.net/pipisorry/article/details/76147604

ref: [斯坦福大学深度学习与自然语言处理第二讲：词向量]

[word2vec原理(一) CBOW与Skip-Gram模型基础]

[Deep Learning in NLP （一）词向量和语言模型]*

深度学习：词嵌入word2vec

word2vec简介

词向量和语言模型

词向量

One-hot Representation

Distributional Representation

语言模型

N-gram语言模型

word2vec模型与推导

神经网络语言模型NNLM(Neural Network Language Model)

总结

两种模型和两种方法的分述

1 CBOW与Skip-gram模型

2 CBOW模型+Hierarchical Softmax方法

3 CBOW模型+Negative Sampling方法

4 Skip-gram模型+Hierarchical Softmax方法

5 Skip-gram模型+ Negative Sampling方法

6 Negative Sampling方法

其它语言模型

C&W 的 SENNA

M&H 的 HLBL

Mikolov 的 RNNLM语言模型

段落embedding

不同语言模型的评价

相关推荐