自然语言处理(二)

任务要求:

  • 基本文本处理技能:中英文字符串处理(删除不相关的字符、去停用词);分词(结巴分词);词、字符频率统计。
  • 语言模型;unigrambigramtrigram频率统计。
  • jiebe分词介绍和使用

1.中英文字符串处理(删除不相关的字符、去停用词

  • 以保留相关字符方式删除不相关字符自然语言处理(二)

去除停用词

自然语言处理(二)

  • jieba分词

jieba分词有三种模式,精确模式,全模式,搜索引擎模式

自然语言处理(二)

词、字符频率统计

自然语言处理(二)

 

语言模型

统计语言模型是一个单词序列上的概率分布,对于一个给定长度为m的序列,它可以为整个序列产生一个概率,即想办法找到一个概率分布,它可以表示任意一个句子或序列出现的概率。

一元文法模型——上下文无关模型
该模型只考虑当前词本身出现的概率,而不考虑当前词的上下文环境。
自然语言处理(二)
每个句子出现的概率为每个单词概率成绩

自然语言处理(二)
依赖于上下文环境的词的概率分布的统计计算机语言模型。可以理解为当前词的概率与前面的自然语言处理(二)个词有关系

  • bigram:当自然语言处理(二)时称为二元 bigram模型,当前词只与它前面的一个词相关,这样概率求解公式:
    自然语言处理(二)
  • trigram: 当自然语言处理(二)时称为三元trigram模型,同理当前词只与它前面的两个词相关