text mining week6

一、潜在方面评分分析 (LARA)
1. 输入：关于具有整体评级的主题的评论文章
输出：评论中评论的主要方面，价值、客房服务等各方面的评级，评论者对不同方面的相对权重
先做不同方面的分离，再利用一个潜在回归模型来学习方面评分和权重
text mining week6
2. 一个统一的生成模型应用于LARA
对文本生成和文本整体评分都分别建模

存在一些实体，假设其中有由词汇分布描述的方面(话题)，之后我们利用一个话题模型对评论文本的生成进行建模，假设评论文本中的词都是从分布中来的，然后再代入到潜在回归模型中，利用文本来预测方面得分，再结合各方面权重预测整体评分

模型特点：对文本生成和基于文本整体的评分分别进行了建模；可以从数据中直接获取情感信息，因为很多词在不用语境中有不同的情感极性，而通过这种生成模型可以判断出该词是正面还是负面；这一过程是无监督的。
二、基于文本分析预测
（1）实际上是统一的框架结构来结合众多文本挖掘和分析技术，包括主题挖掘及文本挖掘技术和分段分析。
（2）主任务：产生现实世界中有价值的数据
子任务：挖掘文本的内容；挖掘观察者所记忆的知识
非文本数据提供语境，方便进行上下文文本挖掘，为文本数据挖掘提供途径去用不同方式区别文本；而文本数据可以帮助从非文本数据中发现规律
（3）语境(背景)文本挖掘
（3）（1）动机：
text mining week6
（3）（2）特定技术：背景概率性隐性语义分析(CPLSA)
（3）（2）（1）主要思想：将背景特征作为变量加入生成的模型中；话题的覆盖率会和话题的内容在背景中联系一起
（3）（2）（2）作为PLSA的延伸：模型会对给定背景下的条件概率进行建模；
假设话题观点与背景相关(允许同一话题在不同语境有不同的表达)，话题覆盖率与背景相关(不同语境话题的覆盖率可以不同)；依然可以使用EM算法，估计参数中会包含背景参数
（3）（3）社交网络语境下的数据挖掘
利用网络来界定文本包含的主题，文本可帮助定义各子网络的特征
（3）（3）（1）网络监督主题模型
text mining week6
f方程同时包括似然函数和正则项函数
（3）（3）（2）NetPLSA：以网络为语境，即在模型中加入网络限制。
先验条件：网络的相邻内容必须有相似的主题分布，互联文章必须用相似的方式阐述类似的主题。

（文本集C和网络图G）
==通过最大化PLSA似然函数来估计PLSA模型参数
节点u和v在网络中是相连的，所以希望他们的概率分布是相似的，则通过负的二项差值平方来最小化。
w(u,v)表示u,v间距离的权重，协同关系强则权重大
lambda则用来调节网络限制的影响力，若lambda为0则得到一个很正统的PLSA模型
（3）（4）使用时间序列监督挖掘”causal topic”
输入：时间序列，在相同时间段内的文本数据( 文本流 )
输出：文本流中覆盖率和时间序列有很强相关性的主题（causal topic）
text mining week6

练习
text mining week6

测验
text mining week6

相关推荐