自然语言学习04-文本可视化 笔记
文本可视化的流程
文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。文本分析的过程主要包括特征提取,通过分词、抽取、归一化等操作提取出文本词汇级的内容,利用特征构建向量空间模型并进行降维,以便将其呈现在低维空间,或者利用主题模型处理特征,最终以灵活有效的形式表示这些处理过的数据,以便进行可视化呈现。
图1 文本可视化流程
可视化类型:
(1)基于文本内容的可视化。
基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Cards 等。
(2)基于文本关系的可视化。
基于文本关系的可视化研究文本内外关系,帮助人们理解文本内容和发现规律。常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等。
(3)基于多层面信息的可视化
基于多层面信息的可视化主要研究如何结合信息的多个方面帮助用户从更深层次理解文本数据,发现其内在规律。其中,包含时间信息和地理坐标的文本可视化近年来受到越来越多的关注。常用的有地理热力图、ThemeRiver、SparkClouds、TextFlow 和基于矩阵视图的情感分析可视化等。
动手实战文本可视化
词云 wordcloud
具体过程是分词、去停用词和统计词频,然后绘制 Wordcloud 词云.
WordCloud 安装
error
python版本为3.7.2(cmd 键入python 回车)
所以应该下37-37的
编码过程分为几个步骤:
- 文件加载
- 分词
- 统计词频
- 去停用词
- 构建词云
error
说缺少imread
现在scipy1.3的版本已移除imread
安装1.2版本即可
pip install scipy==1.2.0
、、zzz