自然语言处理(二)
任务要求:
- 基本文本处理技能:中英文字符串处理(删除不相关的字符、去停用词);分词(结巴分词);词、字符频率统计。
- 语言模型;
unigram
、bigram
、trigram
频率统计。 - jiebe分词介绍和使用
1.中英文字符串处理(删除不相关的字符、去停用词
- 以保留相关字符方式删除不相关字符
去除停用词
-
jieba
分词
jieba分词有三种模式,精确模式,全模式,搜索引擎模式
词、字符频率统计
语言模型
统计语言模型是一个单词序列上的概率分布,对于一个给定长度为m的序列,它可以为整个序列产生一个概率,即想办法找到一个概率分布,它可以表示任意一个句子或序列出现的概率。
一元文法模型——上下文无关模型
该模型只考虑当前词本身出现的概率,而不考虑当前词的上下文环境。
每个句子出现的概率为每个单词概率成绩
依赖于上下文环境的词的概率分布的统计计算机语言模型。可以理解为当前词的概率与前面的个词有关系
-
bigram
:当时称为二元
bigram
模型,当前词只与它前面的一个词相关,这样概率求解公式:
-
trigram
: 当时称为三元
trigram
模型,同理当前词只与它前面的两个词相关