基于 Hierarchical Softmax 的 CBOW 模型

关注：如何构造 P(w | context(w)) ？

1. 网络结构

样本：(context(w),w)，假设 context(w) 由 w 的前后各 c 个词构成。
输入层：包含(context(w)) 中的 2c 个词向量:
$v (c o n t e x t (w) 1) ， v (c o n t e x t (w) 2) ， \dots ， v (c o n t e x t (w) 2 c) \in R m$ 其中，m表示词向量的长度。
投影层：将输入层的 2c 个向量做累加求和，即：
$x w = \sum i = 1 2 c v (c o n t e x t (w) i) \in R m$
输出层：对应一棵 Huffman 树，它以语料中出现过的词作为叶结点，叶结点的权重为词在语料中出现的次数。叶结点共 N=|D| 个，非叶子结点共 N−1 个。

2. 构造 P(w | context(w))

记号：
- pw：从根节点到叶子结点 w 的路径。
- lw：路径 pw 中包含的结点个数。
- pw1，pw2，⋯，pwlw：表示路径 pw 的各个结点。
- dw2，dw3，⋯，dwlw∈{0，1}：词语 w 对应的 Huffman 编码，也是 pw2，pw3，⋯，pwlw 对应的编码。
- θw1，θw2，⋯，θwlw−1∈Rm：路径 pw 中非叶子结点对应的向量。
例子：
- pw 为红色路径，lw=5。
- pw1=38, pw2=23, pw3=9, pw4=4, pw5=3
- , dw2=1, dw3=0, dw4=0, dw5=1
如何使用 xw 和 Huffman 树定义 P(w | context(w)) ?
- 从根节点出发，到达“足球”叶子结点，共有四个分支，每次分支视为进行了一次二分类。
- word2vec 约定：Huffman 编码为 0 的结点为正类，编码为 1 的结点为负类，即 $L a b e l (p w i) = 1 - d w i, i = 2, 3, \dots, l w$ 在 Fuffman 树中，左边为负类，右边为正类。
- 使用逻辑回归进行二分类，一个结点被分为正类的概率为 $σ (x T w θ) = 1 1 + e - x T w θ$
  被分类为负类的概率为 $1 - σ (x T w θ)$
  上式中的 θ 即为每个非叶子结点的 θwi。
例子：
第一次分类：P(dw2|xw,θw1)=1−σ(xTwθw1)
第二次分类：P(dw3|xw,θw2)=σ(xTwθw2)
第三次分类：P(dw4|xw,θw3)=σ(xTwθw3)
第四次分类：P(dw5|xw,θw4)=1−σ(xTwθw4)

P (足 球 | c o n t e x t (足 球)) = \prod j = 2 5 P (d w j | x w, θ w j - 1)

基本思路：对于词典 D 中的任何一个词 w，Huffman 树必定唯一存在一条从根节点到对应叶子节点的路径 pw，路径上存在 lw−1 个分支，把每个分支看成一次二分类，每次分类产生一个概率，把这些概率连乘即为所需的 P(w | context(w)) ，即
$P (w | c o n t e x t (w)) = \prod j = 2 l w P (d w j | x w, θ w j - 1)$ 其中
$P (d w j | x w, θ w j - 1) = {σ (x T w θ w j - 1), 1 - σ (x T w θ w j - 1), d w j = 0 （正类） d w j = 1 （负类）$ 或者
$P (d w j | x w, θ w j - 1) = [σ (x T w θ w j - 1)] 1 - d w j \times [1 - σ (x T w θ w j - 1)] d w j, d w j \in {0, 1}$
此处不需要进行归一化，输出的值本身具有概率意义。

3. 计算梯度

目标函数：
L=∑w∈ClogP(w|context(w))

=∑w∈Clog ∏lwj=2[σ(xTwθwj−1)]1−dwj×[1−σ(xTwθwj−1)]dwj

=∑w∈C∑lwj=2(1−dwj)⋅log[σ(xTwθwj−1)] + dwj⋅log[1−σ(xTwθwj−1)]

=∑w∈C∑lwj=2L(w,j)
θ 参数（随机梯度上升）：
- 每个结点的目标函数对各自结点的 θ 参数求导：
  $L (w, j) = (1 - d w j) \cdot l o g [σ (x T w θ w j - 1)] + d w j \cdot l o g [1 - σ (x T w θ w j - 1)]$
  $δ L (w, j) δ θ w j - 1 = (1 - d w j) \cdot [1 - σ (x T w θ w j - 1)] x w - d w j \cdot σ (x T w θ w j - 1) x w = [1 - d w j - σ (x T w θ w j - 1)] \cdot x w$
- 目标函数对 θ 参数求导：
  $δ L δ θ w j - 1 = δ δ θ w j - 1 \sum w \in C \sum p = 2 l w L (w, p)$
  $= δ δ θ w j - 1 \sum w \in C L (w, j)$
- 每次更新使用一个点：
  $θ w j - 1 : = θ w j - 1 + η \cdot [1 - d w j - σ (x T w θ w j - 1)] \cdot x w$
xw 参数：
- $δ L (w, j) δ x w = [1 - d w j - σ (x T w θ w j - 1)] \cdot θ w j - 1 (θ w j - 1 和 x w 是对称的)$
- $δ L δ x w = δ δ x w \sum w \in C \sum p = 2 l w L (w, p) = \sum w \in C \sum j = 2 l w δ δ x w L (w, j)$
更新词向量v(w^)
我们的目标是求词典中各个词的词向量，xw 表示的是 Context(w) 中各词的词向量的累加： $x w = \sum i = 1 2 c C o n t e x t (w) i = \sum w^, w^\in C o n t e x t (w)$
所以，目标函数对词向量的导数为：
$δ L δ v (w^) = δ L δ x w \times δ x w δ v (w^) = δ L δ x w$
随机梯度上升：
$v (w^) : = v (w^) + η \cdot \sum j = 2 l w δ δ x w L (w, j), w^\in C o n t e x t (w)$

基于 Hierarchical Softmax 的 CBOW 模型

1. 网络结构

2. 构造 P(w | context(w))

3. 计算梯度

相关推荐