【论文笔记】Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks

中文标题:通过图形神经网络进行文本分类

发表会议:ACL 2020

文章链接:Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks

源代码:TextING

1 Introduction

1.1问题陈述 :

文本分类是自然语言处理(NLP)的基础。传统的文本分类方法包括朴素贝叶斯,k近邻和支持向量机。但是,它们主要依赖特征工程,人工和效率为代价大。

之后提出了多种深度学习方法来解决该问题,基于循环神经网络(RNN)和卷积神经网络(CNN),扩展模型提升分类性能,例如,TextCNN,TextRNN和TextRCNN。但是它们都集中在单词的局部性上,因此缺乏长距离和非连续的单词交互。

最近,基于图的方法被用于解决该问题,该方法不将文本视为序列而是将其视为共现单词的集合。Yao等使用图卷积网络将文本分类问题转化为节点分类问题(TextGCN)。Huang等通过引入消息传递机制和减少内存消耗来改进TextGCN。但是,这些基于图的方法有两个主要缺点。首先,忽略每个文本中上下文词关系。具体来说,TextGCN构造一个具有文本和单词之间的全局关系的单个图,不考虑细粒度的文本级单词交互。在Huang等,图的边缘在每对单词之间是全局固定的,但事实是它们在不同的文本中可能会相互影响不同。其次,由于具有全局结构,因此测试文本在训练中是必需的。因此,它们在归纳学习方面存在困难(在归纳学习中,可以使用经过训练的模型轻松获得具有新结构和单词的新文本的单词嵌入)。转导推理(transductive learning),即在训练时将所有节点与边用作输入,但其中仅有一部分输入带有标签。训练的目标是让网络能够预测那些没有标签的样本。

1.2 解决办法:

因此,在这项工作中,作者提出了一种新的文本分类方法,用于通过图神经网络进行归纳词表示,称为TextING。与以前的具有全局结构的基于图的方法相比,作者训练了一个GNN,该GNN可以仅使用训练文本来描述详细的单词-单词关系,并推广到测试的新文本中。作者通过在每个文本中应用滑动窗口来构建单个图。单词节点的信息通过门控图神经网络传播到其邻居,然后汇总到文本嵌入中。

1.3 贡献

  1. 作者提出了一种用于文本分类的新图神经网络,其中每个文本都是一个单独的图,并且可以在其中学习文本级单词的交互作用。

  2. 作者的方法可以推广到训练中缺少的新单词,因此适用于归纳学习。

  3. 实验证明,该方法优于最新的文本分类方法。

2 Methodology

Texting包含三个关键组件:Graph Construction,Graph-based Word Interaction以及Readout Function。该体系结构如图1所示。

【论文笔记】Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks

2.1 Graph Construction

作者将唯一的单词表示为顶点,并将单词之间的共现表示为边来构造文本的图,表示为 G = ( V , E ) \mathcal{G}=(\mathcal{V}, \mathcal{E}) G=(V,E),其中 V \mathcal{V} V是节点集合, E \mathcal{E} E为边集合。通过滑动窗口(默认为长度3)描述词之间的共现关系,它在图上是没有方向的。

文本需要进行预处理,包括token化和删除停用词。顶点的嵌入用单词特征初始化,表示为 h ∈ R ∣ V ∣ × d h \in \mathbb{R}^{|\mathcal{V}| \times d} hRV×d,其中 d d d是嵌入维度。由于作者为每个文档建立了单独的图形,因此在单词交互阶段会在上下文中传播和合并单词特征信息。

2.2 Graph-based Word Interaction

在每个图上,作者使用门控图神经网络来学习单词节点的嵌入。节点可以从其相邻邻居接收信息 a \mathbf{a} a,然后与自己的表示合并以进行更新。当图层在第一阶邻居上运行时,作者可以将 t t t层堆叠 t t t次以实现高阶特征交互,其中一个节点可以到达 t t t跳远的另一个节点。交互的公式为:
a t = A h t − 1 W a \mathbf{a}^{t}=\mathbf{A} \mathbf{h}^{t-1} \mathbf{W}_{a} at=Aht1Wa

z t = σ ( W z a t + U z h t − 1 + b z ) \mathbf{z}^{t}=\sigma\left(\mathbf{W}_{z} \mathbf{a}^{t}+\mathbf{U}_{z} \mathbf{h}^{t-1}+\mathbf{b}_{z}\right) zt=σ(Wzat+Uzht1+bz)

r t = σ ( W r a t + U r h t − 1 + b r ) \mathbf{r}^{t}=\sigma\left(\mathbf{W}_{r} \mathbf{a}^{t}+\mathbf{U}_{r} \mathbf{h}^{t-1}+\mathbf{b}_{r}\right) rt=σ(Wrat+Urht1+br)

h ~ t = tanh ⁡ ( W h a t + U h ( r t ⊙ h t − 1 ) + b h ) \tilde{\mathbf{h}}^{t}=\tanh \left(\mathbf{W}_{h} \mathbf{a}^{t}+\mathbf{U}_{h}\left(\mathbf{r}^{t} \odot \mathbf{h}^{t-1}\right)+\mathbf{b}_{h}\right) h~t=tanh(What+Uh(rtht1)+bh)

h t = h ~ t ⊙ z t + h t − 1 ⊙ ( 1 − z t ) \mathbf{h}^{t}=\tilde{\mathbf{h}}^{t} \odot \mathbf{z}^{t}+\mathbf{h}^{t-1} \odot\left(1-\mathbf{z}^{t}\right) ht=h~tzt+ht1(1zt)

其中, A ∈ R ∣ V ∣ × ∣ V ∣ \mathbf{A} \in \mathbb{R}^{|\mathcal{V}| \times|\mathcal{V}|} ARV×V是邻接矩阵 , σ \sigma σ是 sigmoid 函数, W 、 U \mathbf{W}、 \mathbf{U} WU b \mathbf{b} b 是可训练的权重和偏置. z \mathbf{z} z r \mathbf{r} r 分别是更新门和重置门,以确定邻居信息在多大程度上用于当前节点嵌入。

2.3 Readout Function

单词节点经过充分更新后,将它们汇总为文档的图形级表示形式,并根据该表示形式进行最终预测。作者将readout function 定义为:
h v = σ ( f 1 ( h v t ) ) ⊙ tanh ⁡ ( f 2 ( h v t ) ) \mathbf{h}_{v}=\sigma\left(f_{1}\left(\mathbf{h}_{v}^{t}\right)\right) \odot \tanh \left(f_{2}\left(\mathbf{h}_{v}^{t}\right)\right) hv=σ(f1(hvt))tanh(f2(hvt))

h G = 1 ∣ V ∣ ∑ v ∈ V h v + Maxpooling ⁡ ( h 1 … h ν ) \mathbf{h}_{\mathcal{G}}=\frac{1}{|\mathcal{V}|} \sum_{v \in \mathcal{V}} \mathbf{h}_{v}+\operatorname{Maxpooling}\left(\mathbf{h}_{1} \ldots \mathbf{h}_{\nu}\right) hG=V1vVhv+Maxpooling(h1hν)

其中 f 1 f_1 f1 f 2 f_2 f2是两个多层感知器(MLP)。前者表现为轻柔的注意力权重,而后者则表现为非线性特征变换。除了平均加权词特征外,作者还为图形表示 h G h_{\mathcal{G}} hG应用了最大池功能。其背后的思想是,每个单词都在文本中起作用,关键字应该更明确地做出贡献。

最后,通过将图级矢量输入softmax层来预测标签。作者通过交叉熵函数使损失最小化:
y ^ G = softmax ⁡ ( W h G + b ) \hat{y}_{\mathcal{G}} =\operatorname{softmax}\left(\mathbf{W h}_{\mathcal{G}}+\mathbf{b}\right) y^G=softmax(WhG+b)

L = − ∑ i y G i log ⁡ ( y ^ G i ) \mathcal{L} =-\sum_{i} y_{\mathcal{G}_{i}} \log \left(\hat{y}_{G_{i}}\right) L=iyGilog(y^Gi)

其中, W \mathbf{W} W b \mathbf{b} b 是权重和偏置, y G i y_{\mathcal{G} i} yGi是one-hot标签的第 i i i 个元素。

2.4 Model Variant

作者还提出一个模型的变体TextING-M,具有局部结构的图(原始TextING)和具有全局结构的图(来自TextGCN的子图)并行工作。节点保持不变,而后者的边缘则从每个文档的大图(建立在整个语料库上)中提取。作者分别训练他们,并让他们以1:1的比例进行最终预测。尽管这不是归纳法,但作者的观点是从微观和宏观的角度研究两者是否以及如何互补。

3 Experiments

3.1 Experimental Setup

作者将训练集随机分为9:1的比例,分别用于实际训练和验证。使用Adam优化器,学习率是0.01,dropout是0.5,初始的单词特征表示用的是维度为300的GloVe。

3.1.1 数据集和任务

  1. 电影评论正面或负面的情感分类 ( M R ) 2 (\mathrm{MR})^{2} (MR)2
  2. 路透社新闻8分类和52分类(R8和R52);
  3. 医学摘要分为23种心血管疾病类(Ohsumed)

【论文笔记】Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks

3.1.2 预训练基线

TextCNN、TextRNN、SWEM、TextGCN

3.2 Results

【论文笔记】Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks
表2列出了作者模型的性能以及基线。作者观察到基于图的方法通常胜过其他类型的模型,这表明图模型对文本处理有好处。此外,Texting在所有任务上均排名第一,表明单个图形超过了全局图形。特别是,在MR上发短信的结果明显更高。因为MR中的短文档导致TextGCN中的低密度图,所以它限制了标签消息在文档节点之间传递,而作者的各个图(文档)并不依赖于这种标签消息传递机制。另一个原因是,如表1所示,大约有三分之一的新单词正在测试中,这表明Texting对看不见的单词更友好。 R8的改进相对微妙,因为R8易于安装且基线相当令人满意。 R8上新单词的比例也很低。多通道变体在所有数据集上也表现良好。这意味着该模型可以通过不同的渠道学习不同的模式。