文本数据可视化
文本数据可视化
我们把文档作为我们生活中的主要信息产物
由于网络基础设施的存在,近年来,我们对文档的访问量大幅增长
管道
文本可视化流程:
典型的文本挖掘技术
文本信息挖掘:
文本数据预处理
过滤无效数据、提取有效词等
文本特征抽取
关键词;词频分布;主题
文本特征度量
相似性计算;文本聚类等
典型的文本挖掘方法:
词频 TF、TF IDF
文本分类 文本聚类
K均值 话题模型
LDA、HDP、PLSA
标签/字云
目前研究界非常热门
已经证明在网络上非常流行
想法是通过视觉手段显示单词/概念的重要性。
标签:用户指定的关于某事物的元数据(描述符)
有时泛化为只反映词频
标签云衍化:Wordle
提升标签云的美学欣赏价值:
整体形状可定制
字体样式、大小、颜色编码不同属性
紧凑排布,节省空间
人们搜索网络时的需求:
主要问题:
总结文本语料库
大量复杂信息
时变的
直观解释总结结果
一致的可视化
提供反馈或明确他们的需求
不完善的总结结果或不同的用户需求
自动摘要:
高性能
高比较率
一种芬芳模式
LDA数据转换:
按用户兴趣排序的主题:
增强堆积图:
关键步骤:
计算层的几何图形
分层着色
分层排序:最小化失真 最大化可用空间
确保语义一致
分层标注
文本流:
问题:
理解大型文本集合中的主题演变非常重要
随时了解热门、新话题和相互交织的话题
深入了解潜在主题
主题数据和关系提取:
增量分层Dirichlet进程 文本主题在线学习
自动检测主题编号 提取合并/拆分关系
基于文档主题更改 在线计算合并/拆分概率
关键事件提取:
关键事件类型 生、死、合、裂
合并/拆分事件评分 分支机构数量
分支概率熵
关键字相关性发现:
提取
每个文档中的名词短语、动词短语和命名实体
共同点
他们之间的共同点
用来说明“为什么”
关键点:
人物的动态关系 场景的层次结构
主题竞争模式:
未来文本可视化主题
交互式增量文本分析
多层次可视文本总结(关键词+句子)
多方面的文本分析(例如,总结+情感分析)
多媒体文档摘要(文本+图像+视频)
互动、可视的社交媒体分析