NLP07_语言模型生成新的数据

Unigram model

使用词库,通过训练语言模型得到每个单词的一个概率。
通过Unigram model根据单词的概率去生成句子,由于每个单词的概率并没有考虑上下文关系,所以生成的句子看起来并没有什么语法
NLP07_语言模型生成新的数据

Bigram Model

BigramModel通过训练数据得到的概率考虑单词关系,所以生成的概率组成一个矩阵,最后加一个终止符号
NLP07_语言模型生成新的数据
通过大量的语料库,我们可以训练出一个语言模型,然后再根据这个语言模型来生成一些有意思的句子,文章,