text mining week6

一、潜在方面评分分析 (LARA)
1. 输入:关于具有整体评级的主题的评论文章
输出:评论中评论的主要方面,价值、客房服务等各方面的评级,评论者对不同方面的相对权重
先做不同方面的分离,再利用一个潜在回归模型来学习方面评分和权重
text mining week6
2. 一个统一的生成模型应用于LARA
对文本生成和文本整体评分都分别建模
text mining week6
存在一些实体,假设其中有由词汇分布描述的方面(话题),之后我们利用一个话题模型对评论文本的生成进行建模,假设评论文本中的词都是从分布中来的,然后再代入到潜在回归模型中,利用文本来预测方面得分,再结合各方面权重预测整体评分

模型特点:对文本生成和基于文本整体的评分分别进行了建模;可以从数据中直接获取情感信息,因为很多词在不用语境中有不同的情感极性,而通过这种生成模型可以判断出该词是正面还是负面;这一过程是无监督的。
二、基于文本分析预测
(1)实际上是统一的框架结构来结合众多文本挖掘和分析技术,包括主题挖掘及文本挖掘技术和分段分析。
(2)主任务:产生现实世界中有价值的数据
子任务:挖掘文本的内容;挖掘观察者所记忆的知识
非文本数据提供语境,方便进行上下文文本挖掘,为文本数据挖掘提供途径去用不同方式区别文本;而文本数据可以帮助从非文本数据中发现规律
(3)语境(背景)文本挖掘
(3)(1)动机:
text mining week6
(3)(2)特定技术:背景概率性隐性语义分析(CPLSA)
(3)(2)(1)主要思想:将背景特征作为变量加入生成的模型中;话题的覆盖率会和话题的内容在背景中联系一起
(3)(2)(2)作为PLSA的延伸:模型会对给定背景下的条件概率进行建模;
假设话题观点与背景相关(允许同一话题在不同语境有不同的表达),话题覆盖率与背景相关(不同语境话题的覆盖率可以不同);依然可以使用EM算法,估计参数中会包含背景参数
(3)(3)社交网络语境下的数据挖掘
利用网络来界定文本包含的主题,文本可帮助定义各子网络的特征
(3)(3)(1)网络监督主题模型
text mining week6
f方程同时包括似然函数和正则项函数
(3)(3)(2)NetPLSA:以网络为语境,即在模型中加入网络限制。
先验条件:网络的相邻内容必须有相似的主题分布,互联文章必须用相似的方式阐述类似的主题。
text mining week6
(文本集C和网络图G)
==通过最大化PLSA似然函数来估计PLSA模型参数
节点u和v在网络中是相连的,所以希望他们的概率分布是相似的,则通过负的二项差值平方来最小化。
w(u,v)表示u,v间距离的权重,协同关系强则权重大
lambda则用来调节网络限制的影响力,若lambda为0则得到一个很正统的PLSA模型
(3)(4)使用时间序列监督挖掘”causal topic”
输入:时间序列,在相同时间段内的文本数据( 文本流 )
输出:文本流中覆盖率和时间序列有很强相关性的主题(causal topic)
text mining week6

练习
text mining week6
text mining week6

测验
text mining week6
text mining week6
text mining week6
text mining week6