《Review Sentiment Analysis Based on Deep Learning》论文阅读笔记

这篇论文的本质是将多个方面的特征进行结合进行情感分析,关键点在于不同情感特征的抽取

A、词频特征

认为只有情感词会对文本的情感结果起作用,而不是每一个词都会有作用

对于某一篇文章,计算dimension长度个词的词频,这个长度可以理解为多退少补

得到了一个【1,dimension】长度的向量,利用logistic classifier作为这个层面上的**函数

B、上下文窗口特征

认为每个情感词的具体含义会与紧邻的上下文有关系

首先,对一个文档的每一个情感词圈定一个上下文,用0-1表示该特征

然后整个语料库就是多个情感词上下文的集合

再用整个语料库的集合来表示每一个文档集合,对于每个特征,在语料库中则为1,不在则为0

hit 就是多个文档的特征相加

C、词性标注特征

认为只计算特殊的词性标注序列,而不计算不相关的特征

建立了两个集合,前缀集合和后缀集合

对于文档中的每个情感词的这两个集合的得到方法,是使用以下算法

对于每个情感词,把它的前缀词性加入到前缀集合中,后缀词性加入到后缀集合中

 

 

网络结构设计

提出一个可变层和可变节点的解决办法

每一个文档是一个向量表示,向量是特定的情感表达,假设每一个情感表达的情感极性是线性的,即积极或消极,所以,将情感表达这一维度的特征作为输出层的隐含调节层。

对于其他层,可将词特征作为输入,如何将前期得到的各种特征组合是一个问题,因此,首先先建一个,然后持续加入。使用指数下降和固定下降法来调节邻层(其实可以理解为dropout)。在每一次迭代中,先固定层数n,然后再进一步确定每层的节点数目。

所以提出了一个层次深度神经网络,将不同的特征进行结合

《Review Sentiment Analysis Based on Deep Learning》论文阅读笔记

先降维,再将低维向量融合

对于每个子网络,原始向量作为输入,目标向量作为输出,中间的每层都用衰减系数调整结点个数。

主网络的输入是三个子网络输出的和