《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》
出处: ACL2018
1. 贡献
本文提出在词向量上进行简单的池化操作在文本分类/匹配任务上就可以得到跟CNN/RNN相当的效果。
2. 方案
- 1) SWEM-aver:整个句子的信息
)
- 2)SWEM-max:突出特征
)
- 3)拼接SWEM-aver和SWEM-max
- 4 SWEM-hier(层次化)
最大和平均池化没有考虑词序,这里引入层次化pooling。先作固定窗口的平均pooling,得到k个向量,然后对这k个向量做max-pooling。
3. 解释
SWEM-max和glove的各个纬度的值的直方图如下,可以发现前者比较稀疏,大部分是0,说明作分类任务只需要特定的几个词就够了。
4. 作用
可以作为基础特征提取器。