查看单词上下文

查看某单词出现在文章中的环境，对了解作者的用词风格有很大帮助。查看单词‘monstrous’出现过的位置。

自然语言处理：简单分析文本中的单词

还可以继续查看有类似上下文的单词，函数similar可以轻松做到

自然语言处理：简单分析文本中的单词

当得到若干个有着相似上下文的单词的时候，很有必要看一下它们的共同之处，此时便用到了common_context()。

自然语言处理：简单分析文本中的单词

绘制词频离散图

通过dispersion_plot函数可以绘制出任意多个单词出现在文章中的点图，如下图可以看出，在text4这篇文章中，‘citizens’出现频率降低，而‘America’则是越来越被强调。

自然语言处理：简单分析文本中的单词

generate()执行的原理是使用搜集文本中单词序列的统计信息，从而使用源文本中重复较多的单词和短语。

自然语言处理：简单分析文本中的单词

这里用到的是python中非常普通的函数，len和set，但是组合使用这两个简单的函数，却可以简单比较不同作者词汇量的丰富程度，如下，text1作者的词汇量是比text2作者要丰富一些，当然，这只是大概估计出的结果，详细的研究是可以作为一门学问来研究的。

自然语言处理：简单分析文本中的单词

统计出文章中每个出现过的字符的次数，但是单纯的使用这个函数往往是没有办法获取有用的信息的，例如下面这个图，直接使用时，排名靠前的都是一些符号或者是介词等没有实际意义的标识符。

自然语言处理：简单分析文本中的单词