神经网络语言模型(NNML)

把自己对神经网络语言模型(NNML)的一些理解记录下来，有理解不正确的地方还请在评论区批评指正。

原文可在这里阅读下载

模型结构如下图所示：
神经网络语言模型(NNML)
模型包含：输入层，投影层，隐藏层，以及输出层。

输入层：将前N-1个词 $(w_{t-n+1}, \cdots,w_{t-2}, w_{t-1})$ 用1-of- $|V|$ 编码方式(好像是dummy coding，可以参考pandas中的get_dummies函数)编码， $V$ 是词典。假设将词 $w_{t-n+1}$ 编码之后的向量用 $a_{t-n+1}\in R^{1\times |V|}$ 表示。
投影层：假设每个词用 $m$ 维表示。使用一个投影矩阵 $C\in R^{|V|\times m}$ 将输入 $a_{t-n+1}$ 映射为向量 $C_{t-n+1}\in R^{1\times m}$ 。一共有 $n-1$ 个输入，将映射后的向量拼接形成 $(C_{t-n+1}, \cdots, C_{t-2}, C_{t-1})\in R^{(n-1)m\times1}$ 。
隐藏层：隐藏层的输入为 $x=(C_{t-n+1}, \cdots, C_{t-2}, C_{t-1})$ ，**函数为 $tanh$ 函数。此层的输出为 $tanh(d+Hx)$ ，其中 $d\in R^{h\times1}$ 为投影层的偏置， $H\in R^{h\times(n-1)m}$ 为投影层到隐藏层的权重矩阵。
输出层：采用的是 $softmax$ 函数，即 $\hat{P}\left(w_{t} | w_{t-1}, \cdots w_{t-n+1}\right)=\frac{e^{y_{w_{t}}}}{\sum_{i} e^{y_{i}}}$
其中 $y=b+W x+U \tanh (d+H x)$ ， $b\in R^{|V|\times1}$ 为隐藏层的偏置， $tanh(d+Hx)$ 为隐藏层的输出； $U\in R^{|V|\times h}$ 为隐藏层到输出层的权重矩阵； $W\in R^{|V|\times(n-1)m}$ 为投影层到输出层的权重矩阵，如图中的虚线，可以为0，表示投影层到输出层没有连接。输出层的维度为 $|V|\times 1$ ，第 $i$ 位表示词序列中第 $n$ 个词是 $V_i$ 的概率，和为1。

综上所述，模型需要学习的参数 $\theta=(b, d, W, U, H, C)$ 。训练模型使用随机梯度下降法： $\theta \leftarrow \theta+\varepsilon \frac{\partial \log \hat{P}\left(w_{t} | w_{t-1}, \cdots w_{t-n+1}\right)}{\partial \theta}$

[1] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of machine learning research, 2003, 3(Feb): 1137-1155
[2] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv, 2013, 1301(3781)
[3] https://blog.****.net/lilong117194/article/details/82018008

神经网络语言模型(NNML)

相关推荐