《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》

出处: ACL2018

1. 贡献

本文提出在词向量上进行简单的池化操作在文本分类/匹配任务上就可以得到跟CNN/RNN相当的效果。

2. 方案

  • 1) SWEM-aver:整个句子的信息
    《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》)
  • 2)SWEM-max:突出特征
    《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》)
  • 3)拼接SWEM-aver和SWEM-max
  • 4 SWEM-hier(层次化)
    最大和平均池化没有考虑词序,这里引入层次化pooling。先作固定窗口的平均pooling,得到k个向量,然后对这k个向量做max-pooling。
3. 解释

SWEM-max和glove的各个纬度的值的直方图如下,可以发现前者比较稀疏,大部分是0,说明作分类任务只需要特定的几个词就够了。
《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》

4. 作用

可以作为基础特征提取器。