自然语言处理（二）

任务要求：

1.中英文字符串处理（删除不相关的字符、去停用词

去除停用词

自然语言处理（二）

jieba分词有三种模式，精确模式，全模式，搜索引擎模式

自然语言处理（二）

词、字符频率统计

自然语言处理（二）

语言模型

统计语言模型是一个单词序列上的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率，即想办法找到一个概率分布，它可以表示任意一个句子或序列出现的概率。

一元文法模型——上下文无关模型
该模型只考虑当前词本身出现的概率，而不考虑当前词的上下文环境。
自然语言处理（二）
每个句子出现的概率为每个单词概率成绩

自然语言处理（二）
依赖于上下文环境的词的概率分布的统计计算机语言模型。可以理解为当前词的概率与前面的个词有关系