《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

原文链接:https://arxiv.org/abs/1509.00685
Github:https://github.com/facebookarchive/NAMAS
文章来源:EMNLP 2015
学术机构:Facebook AI Research / Harvard SEAS
研究问题:生成式自动摘要

1 Introduction

背景

2 Background

本论文使用的是abstractive方法,旨在发现最优的序列:
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
而extractive方法的目标函数是
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
compression方法的目标函数是
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
本论文主要着重在改造factored scoring functions上,该函数还考虑到前面固定词语的窗口信息
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
其中
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
考虑summary的条件对数概率《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
可以写成:
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

3 Model

3.1 Neural Language Model

语言模型主要是根据上下文信息,预测下一个单词的概率。主要参考NNLM模型(neural network language model)。
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

3.2 Encoders

Bag Of Words Encoder

使用词袋模型作为baseline。
缺点:词袋模型忽略了原始文本的序列信息,和邻近词信息。
优点:此模型能捕获单词之间的相对重要性,并能区分内容词、停用词和修饰词。
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

Convilutional Encoder

改进了词袋模型,此模型允许单词之间的局部交互影响,并在输入时不需要上下文Yc,使用了标准的TDNN(time delay neural network)结构
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

Attention Based Encoder

为了增强encoder语言模型的表征能力(encoder 输出的vector ),引入了attention机制。
非正式地,我们可以将此模型简单地看作是使用一个learned soft alignment between the input and the summary 替代uniform distribution in bag-of-words。
the soft alignment 是为了在构造表征时,用于权衡加了smoothed的输入x
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

Trainning

训练模型时,没有添加生成约束,所以能支持所有可能的训练对。
定义input-summary pairs,使用mini-batch SGD优化负对数极大似然损失:
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

4 Generating Summaries

生成目标是
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

不同于inference复杂度为NP-hard的MT任务,本任务没有显式的硬对齐约束,因此viterbi decodeing可以用作推断算法,并且只需要O(NV^C)的复杂度。但如果V足够长,那么此任务还是存在一定的难度。

为了在excat和greedy decoding中进行折中,选择了beam-search decoder进行推断。它能限制在每个位置只保留K个潜在的候选项。每一轮BS的计算会受K个hypotheses的的主导。
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

5 Extension:Extractive Tuning

加了attention机制尽管能提升了模型的能力,但是模型缺乏抽取输入单词的能力。例如模型不能很好地转移看不见的专有名词。
为了解决此问题,本论文添加了一个小的附加特征,用于权衡系统的生成/抽取能力。
因而修改了scoring function,使用log-linear model直接评估summary的概率:
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

其中α是权重向量,f是特征函数。

在此分布下找到最优的summary,相当于最大化以下因子得分函数s:
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
其中
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
函数f结合了local conditional probability 和 additional indicator features(unigram, bigram, trigram match with the input):
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

6 Related Work

相关工作

7 Experimental Setup

data set

使用的是DUC-2004/Gigaword
使用ROUGE进行模型评估,ROUGE-1/ROUGE-2/ROUGE-L

Implementation

经过validation的测试,模型设置参数:
D=200
H=400
C=5
L=3
Q=2
在验证集上,用了4天,达到最好的训练效果。

8 Result

使用了不同模型作了效果对比
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

使用了不同的encoder进行训练,对比
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记
使用不同的inference算法,作了比较。最好的结果是使用attention versus BoW + beam search的encoder。
《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记