【论文笔记】Text Classification using Capsules

Introduction

本文将胶囊网络应用到文本分类任务中,并根据任务特点对模型做了一些改进,在实验中取得了不错的效果。
亮点:

  • 用静态路由算法代替动态路由算法。
  • ELU-gate的使用。

model

【论文笔记】Text Classification using Capsules
模型包含以下四层:

  • input layer:将文本以词向量形式输入到网络中。
  • convolutional layer:提取局部特征,并用一个gated-linear单元保存空间信息。
  • convolutional capsule layer:将上一层提取的局部特征aggregate,得到全局特征。
  • text capsule layer:输出预测的标签。

static routing

在图像处理中,我们需要考虑到低层实体的空间关系,比如人脸识别中鼻子和眼睛的位置;而在自然语言处理中,语序的变化有时并不会改变句子的原义。
动态路由算法:
【论文笔记】Text Classification using Capsules
静态路由算法:
【论文笔记】Text Classification using Capsules
由于文本有着高度的可变性,所以模型在处理文本的细微变动(比如改变语序或插入新词)时应该表现得更灵活。作者推测去掉耦合系数c可能使模型表现更加平滑。

ELU-gate unit

模型的第二层(convolutional layer)提取特征时,用ELU-gate unit代替最大池化层。ELU-gate unit定义如下:
【论文笔记】Text Classification using Capsules
D是输入的docunment,W和V是参数矩阵,b和c为偏置。ELU-gate unit就像LSTM中的门控制单元,可以选择要被**的特征。相比池化,它不会丢失空间信息。

Results

【论文笔记】Text Classification using Capsules
作者选取了7个流行的数据集上做了对比实验,本文提出的模型其中5个数据集的实验中达到了最佳分类效果。实验表明静态路由模型的准确率高于动态路由模型。
ELU-gate unit效果:
【论文笔记】Text Classification using Capsules