HAN

一、概括性介绍

本文提出了一种用于文本分类的分层注意力网络(Hierarchical Attention Networks)。该模型有两个显著特点:一是该模型有一种分层结构可以对应文本的分层结构(单词和句子);二是有两种关注机制可以分别应用于“单词”和“句子”层面(Word attention and Sentence attention),使它能够在创建文本表示text representation 时区别处理重要和不重要的内容。

传统的文本分类方法用稀疏的词汇特征来代表文本,比如n-grams,然后用线性模型或者核方法对其进行表示。近来越来越多的方法开始应用深度学习的方法去学习文本表示,比如卷积神经网络(CNN),基于长短期记忆网络(LSTM的循环神经网络等。

尽管基于神经网络的文本分类方法已经相当有效,本文验证了一种假设:在模型体系结构中加入文本结构信息可以获得更好的表示。即对于一次查询,文本中的所有部分不是同等重要的,要确定哪一部分重要,涉及到对单词的交互进行建模(我理解的交互是上下文),而不仅仅是孤立地处理单词。

本文最主要的贡献是一种新的网络结构,即HAN。首先,因为文本具有分层结构(单词组成句子,句子组成文本),本文同样的创建了一种分层文本表示方法,首先,构建句子的表示,而后将它们聚合成文本表示。第二,我们可以看到,文本中不同的单词和句子具有不同的信息。第三,单词和句子的重要性是与上下文高度相关的,也就是说,同一个词或句子在不同的上下文中可能会有不同的重要性因此本文模型包含了两个层级的关注机制——一一个是单词级别,一个是句子级别。

HAN