This Email Could Save Your Life: Introduce the Task of Email Subject Line Generation
ACL 2019 This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation
背景
这是一篇发表于今年ACL上的文章,初看标题就很吓人,看完之后觉得可以将其归为标题党一族。本文和**EMNLP 2018 Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization**又异曲同工之处,两篇文章标题的风格很相像,文章的内容也是相同的套路。主要内容可以分为三部分:提出一个新任务、构建一个新数据集和使用一个并不复杂的模型验证它在新数据集上解决该任务的效果。
本文中作者首先提出了一个归类于extremely abstractive summary的新任务:email subject line generation,它和EMNLP 2018 Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization提出的extreme summarization任务是相似的。相较于传统的生成式文本摘要任务,它们要求模型使用更短的句子来对文本内容进行描述,因此,模型需要具有更强的信息压缩和信息提取能力。此外基于Enron dataset构建了一个适用于该任务的数据集,数据集中仅包含正文部分和对应的主题句。最后提出了一个结合强化学习的两阶段生成模型,即抽取式+生成式的混合模型,模型本身并没有太多的创新,更多的是已有模型的一种结合。
模型
模型的架构如下所示:
模型整体上是两阶段的处理方式,上图左端部分为抽取式模型,它主要完成从正文中的多个句子中抽取包含重要信息的句子,因此可以看做是一般的序列标注任务;右端部分为生成模型,它主要完成在保留主要信息的同时实现主题句的生成。另外为了将两部分做成端到端的训练方式,这里同样采用了强化学习的策略梯度进行梯度信息的传递。
Extractor
假设文本由个句子组成,首先通过多尺度的卷积核获取文本的表示,这里文本中句子的表示是不同尺寸卷积核处理后结果的拼接。然后使用单层双向的LSTM获取更高层次的语义表示,最后使用另一个LSTM对于文本中的句子进行标识,每个时间步输出一个模型认为重要的句子。为了让模型学会何时停止抽取,这里又设置了一个可训练的STOP向量,当模型选择到它时就停止抽取。
Abstractor
这里使用的就是最简单的结合bilinear attention的Seq2Seq模型,没什么好说的。为了评估模型的效果,这里作者提出了Email Quality Estimator(ESQE),它会对Email的正文和可能的主题打分,从而来判断两者是否相符。
ESQE采用了CNN+FC的简单架构方式,FC层的输入是正文和主题两者表示的拼接,最后FC根据输入的表示进行打分。
ESQE使用人工表示的数据进行预训练,在模型生成过程中是固定不变的。
training
为了使两部分可以采用端到端的方式进行训练,这里依然是使用了RL进行奖励值的传递,目标是希望抽取部分尽可能的抽取到包含主要信息的句子。因为生成部分模型并不复杂,因此模型整体的效果很依赖于前一部分的好坏。
Experiment
作者在实验部分做的很详细,作为对比的baseline也很多,评估方式采用自动评估和人工评估,实验结果如下:
对详细的实验结果感兴趣的可查阅原文~