【论文笔记】Text Classification using Capsules
Introduction
本文将胶囊网络应用到文本分类任务中,并根据任务特点对模型做了一些改进,在实验中取得了不错的效果。
亮点:
- 用静态路由算法代替动态路由算法。
- ELU-gate的使用。
model
模型包含以下四层:
- input layer:将文本以词向量形式输入到网络中。
- convolutional layer:提取局部特征,并用一个gated-linear单元保存空间信息。
- convolutional capsule layer:将上一层提取的局部特征aggregate,得到全局特征。
- text capsule layer:输出预测的标签。
static routing
在图像处理中,我们需要考虑到低层实体的空间关系,比如人脸识别中鼻子和眼睛的位置;而在自然语言处理中,语序的变化有时并不会改变句子的原义。
动态路由算法:
静态路由算法:
由于文本有着高度的可变性,所以模型在处理文本的细微变动(比如改变语序或插入新词)时应该表现得更灵活。作者推测去掉耦合系数c可能使模型表现更加平滑。
ELU-gate unit
模型的第二层(convolutional layer)提取特征时,用ELU-gate unit代替最大池化层。ELU-gate unit定义如下:
D是输入的docunment,W和V是参数矩阵,b和c为偏置。ELU-gate unit就像LSTM中的门控制单元,可以选择要被**的特征。相比池化,它不会丢失空间信息。
Results
作者选取了7个流行的数据集上做了对比实验,本文提出的模型其中5个数据集的实验中达到了最佳分类效果。实验表明静态路由模型的准确率高于动态路由模型。
ELU-gate unit效果: