统计语言模型

详细见: https://www.cnblogs.com/peghoty/p/3857839.html

1、介绍

统计语言模型

统计语言模型

 

2、计算统计语言模型的参数的方法

 

统计语言模型

 

(1)、n-gram

做了一个n-1介的马尔科夫假设,认为一个 词出现的概率只与它前面的n-1个词相关

统计语言模型

这样利用条件概率公式就可以统计计算了

统计语言模型

 

 

(2)、神经概率语言模型(基于n-gram的思想,只是把基于统计的方法换成了神经网络的方法)

统计语言模型

输入:是n-1个单词的词向量(这个也是属于网络的参数,随机初始化后,进行训练更新)

输出:是词汇表长度的向量,经过softmax之后,代表某个词的概率,那么这个输出也是和我们的目的相同的,就是求一个条件概率公式统计语言模型

所以输出是符合我们的目的,但是此时可以发现这样语言模型顺便产生了一个副产品:词向量

 

(3)、神经网络模型vs n-gram

统计语言模型