论文链接
定义
- 词汇表V,w1⋯wT表述词汇表中的单词
- 目标函数,f(wt,⋯,wt−n+1)=P^(wt∣w1n−1),即对于文本中某个位置的单词,希望当出现其前n-1个单词为wt−n+1,wt−n+2,..wt−1时,希望该位置出现的是单词wt的概率最大
- matrix C,该矩阵为单词向量矩阵
模型结构

预测函数为
y=b+Wx+Utanh(d+Hx)(1)
结合上图,softmax的输入主要包含两个部分,一个是输入单词向量的线性变换,在公式中体现为Wx, 另一部分为**函数部分,该部分首先将单词向量进行拼接,然后乘上权重H并加上偏置项d,将结果经过tanh函数后在乘上权重矩阵U,所以在该模型找中需要学习的参数主要有θ=(b,d,W,U,H,C),其中C是最后学需要的词向量矩阵。
softmax的输出,跟对应label算交叉熵,并加上参数θ的正则项成为最终的损失函数。
NNLM的思考
为什么加上了类似于deep & wide模型中的wide部分?
参数太多?
通过拼接的方法具有了一定的顺序性?
限制条件的作用?
⋅f(wt,wt−1,…,wt−n+2,wt−n+1)>0⋅∑i=1∣V∣f(i,wt−1,…,wt−n+2,wt−n+1)=1