自然语言处理:简单分析文本中的单词

初学NLP使用的是NLTK工具包,从非常简单的词汇统计做起,总的来说,包含但是不限于:

自然语言处理:简单分析文本中的单词

查看单词上下文

查看某单词出现在文章中的环境,对了解作者的用词风格有很大帮助。查看单词‘monstrous’出现过的位置。

自然语言处理:简单分析文本中的单词

还可以继续查看有类似上下文的单词,函数similar可以轻松做到

自然语言处理:简单分析文本中的单词

当得到若干个有着相似上下文的单词的时候,很有必要看一下它们的共同之处,此时便用到了common_context()。

自然语言处理:简单分析文本中的单词

绘制词频离散图

通过dispersion_plot函数可以绘制出任意多个单词出现在文章中的点图,如下图可以看出,在text4这篇文章中,‘citizens’出现频率降低,而‘America’则是越来越被强调。

自然语言处理:简单分析文本中的单词

生成文本风格

generate()执行的原理是使用搜集文本中单词序列的统计信息,从而使用源文本中重复较多的单词和短语。

自然语言处理:简单分析文本中的单词

词汇计数

这里用到的是python中非常普通的函数,len和set,但是组合使用这两个简单的函数,却可以简单比较不同作者词汇量的丰富程度,如下,text1作者的词汇量是比text2作者要丰富一些,当然,这只是大概估计出的结果,详细的研究是可以作为一门学问来研究的。

自然语言处理:简单分析文本中的单词

统计词频

统计出文章中每个出现过的字符的次数,但是单纯的使用这个函数往往是没有办法获取有用的信息的,例如下面这个图,直接使用时,排名靠前的都是一些符号或者是介词等没有实际意义的标识符。

自然语言处理:简单分析文本中的单词