统计语言模型

1、介绍

统计语言模型

2、计算统计语言模型的参数的方法

统计语言模型

（1）、n-gram

做了一个n-1介的马尔科夫假设，认为一个词出现的概率只与它前面的n-1个词相关

统计语言模型

这样利用条件概率公式就可以统计计算了

统计语言模型

（2）、神经概率语言模型（基于n-gram的思想，只是把基于统计的方法换成了神经网络的方法）

统计语言模型

输入：是n-1个单词的词向量（这个也是属于网络的参数，随机初始化后，进行训练更新）

输出：是词汇表长度的向量，经过softmax之后，代表某个词的概率，那么这个输出也是和我们的目的相同的，就是求一个条件概率公式统计语言模型

所以输出是符合我们的目的，但是此时可以发现这样语言模型顺便产生了一个副产品:词向量

（3）、神经网络模型vs n-gram

统计语言模型