论文笔记:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
背景:
大多数图像字幕模型不能主动根据用户的意图来生成不同的描述。
创新点:
我们提出了抽象场景图(ASG)结构来表示细粒度级别的用户意图,并控制生成的描述对象和细节。
在本工作中,我们提出了一种更细粒度的控制信号-抽象场景图(ASG),以表示可控图像标题生成的不同意图。如图1所示,ASG为一个有向图,由三种抽象节点组成,分别是对象、属性和关系,而每个节点不需要具体的语义标签。因此,这种图形结构很容易手动或自动获得,因为它不需要语义识别。更重要的是,ASG能够反映用户的意图是描述什么和如何详细描述。
整体分两步:
Role-aware Graph Encoder和Language Decoder for Graphs整体来看,还是编码解码的思路。
Role-aware Graph Encoder主要由两部分构成,一个是通过对结点进行映射获得结点代表的intention信息,另一个是使用图卷积来捕获多种不同的关系。这里编码器的最终输出还是一个编码好的全局的编码向量。
Language Decoder for Graphs也包含两个部分,一个用来在解码过程中考虑图的语义和结构信息,另一个用来记录那些结点被描述过。
解码采用的两层的LSTM第一层编码出的向量,需要和图节点映射做一个attention来获得加权之后的语义信息。