指导长时记忆以生成图像字幕

摘要：在这项工作中，我们专注于图像标题生成的问题。我们提出了长期短期记忆（LSTM）模型的扩展，简称为gLSTM。
特别是，我们将从图像中提取的语义信息作为额外输入添加到LSTM块的每个单元中，目的是将模型引向更紧密地耦合到图像内容的解决方案。
此外，我们探索了用于波束搜索的不同长度归一化策略，以防止偏爱短句。在各种基准数据集（例如Flickr8K，Flickr30K和MS
COCO）上，我们获得的结果与当前的最新技术相当，甚至超越其水平。

1. 简介

视觉分类的最新成功将社区的兴趣转移到了更高级别，更复杂的任务上，例如图像标题生成[9，38，20，28，21，22，23，27，19，26，17 ，36，7，37]。尽管对于人类来说，描述图片是很自然的，但计算机很难模仿这一任务。它要求计算机对图像的内容具有某种程度的语义理解，包括存在哪些种类的对象，它们的外观，所执行的操作等等。最后但并非最不重要的一点是，这种语义理解必须被构造成类似于人的句子。
Guiding the Long-Short Term Memory Model for Image Caption Generation

受机器翻译的最新进展启发[5，1，32]，神经机器翻译模型最近已应用于图像标题生成任务[26，17，36，7，37]，并取得了显著成功。尤其是，与使用刚性句子结构的基于模板的方法和重新使用训练数据中可用的描述的基于传递的方法相比，基于神经机器翻译模型的方法在以下方面脱颖而出：产生新的句子。他们可以有效地概括训练时看到的句子，这要归功于所学的语言模型。大多数神经机器翻译模型遵循编码器-解码器管道[5，1，32]，其中源语言中的句子首先被编码为固定长度的嵌入矢量，然后被解码以生成一个目标语言的新句子。对于机器翻译，并行语料库通常用于学习和评估模型[5，1，32]。源语言和目标语言中的句子对通常共享相似的句子结构（通常包括常规短语和相同的单词顺序）。该结构信息被编码在固定长度的嵌入向量中，并有助于翻译。

应用于字幕生成的目的是将图像“翻译”成描述它的句子。然而，令人怀疑的是，这些模型是否可以应对两种模式之间的巨大差异。视觉信息的结构与要生成的描述的结构有很大不同。在编码阶段，该算法将所有视觉信息压缩为嵌入向量。然而，此向量不太可能捕获在随后的解码阶段正确生成文本描述所需的相同级别的结构信息。

最新技术之一[36]使用卷积神经网络（CNN）进行编码，并使用长期短期记忆（LSTM）网络进行编码。我们注意到，有时生成的句子似乎“漂移”或“丢失了”原始图像内容，从而生成了在数据集中常见的描述，但仅与输入图像弱耦合。我们假设这是因为解码步骤需要在两种（有时是相互矛盾的）力量之间找到平衡：一方面，要生成的句子需要描述图像内容；另一方面，生成的句子需要描述图像内容。另一方面，生成的句子需要适合语言模型，更可能使用单词组合。如果原始力开始占主导，则系统可能会“丢失”原始图像内容。但是，从图像标题生成的角度来看，保持靠近图像内容可能被认为是两者中最重要的。

为了克服基本编解码流水线的局限性，在机器翻译[1]和图像标题生成[37]的背景下提出了扩展流水线。他们引入了一种关注机制，以使源域和目标域中的信息保持一致，从而使该模型能够参与源语言或图像中句子中最相关的部分。

在这里，我们提出了LSTM模型的另一种扩展，它可以在更广泛的范围内使用。我们首先从图像中提取语义信息，然后使用它来“指导”解码器，并通过对与图像内容语义相关的单词添加正偏向来使其保持“正轨”。更具体地说，我们将语义信息添加为每个LSTM存储器单元门的额外输入。只要这些额外的输入在图像及其描述之间建立语义连接，就可以采用许多不同的形式。例如语义嵌入，分类或检索结果。作为说明，我们尝试使用从使用CCA的多模式语义嵌入中获得的功能，或者基于该语义嵌入的跨模式检索结果。

我们的贡献是双重的。作为我们的主要贡献，我们提出了LSTM的扩展，它以图像的语义信息为指导。我们为提出的方法创造了术语gLSTM。我们在多个数据集上实验表明，这种指导对于学习生成图像标题是有益的。作为一项额外的贡献，我们观察到字幕生成的当前推理方法严重偏向短句。我们通过实验表明，这会损害所生成句子的质量，因此建议对句子进行规范化，从而进一步改善结果。在实验中，我们证明了所提出的方法在流行数据集上与最新发布和未发布的最新技术处于同等甚至领先的状态。

2. 相关工作

字幕生成。
关于字幕生成的文献可分为三个家族。在第一个家族中，我们有基于模板的方法[9，38，20，28]。这些方法首先检测对象，动作，场景和属性，然后将它们填充到固定的句子模板中，例如使用主语-动词-宾语模板。这些方法是直观的，可以与现成的视觉分类组件一起使用。但是，它们需要为每个类进行显式注释。给定通常可用的类别数量很少，这些方法无法生成足够丰富的字幕。此外，由于他们使用刚性模板，因此生成的句子不太自然。

第二族遵循基于转移的字幕生成策略[21、22、23、27]。它们与图像检索有关。这些方法首先检索视觉上相似的图像，然后将这些图像的标题转移到查询图像。这些方法的优点是，与基于模板的方法相比，生成的字幕比后代更具人性化。但是，由于它们直接依赖于训练数据之间的检索结果，因此它们很难根据图像的内容添加或删除单词。

受到神经网络在机器翻译中的成功的鼓舞[5，1，32]，最近人们提出使用神经语言模型来生成字幕。目标不是将句子从源语言翻译成目标语言，而是将图像翻译成描述它的句子。在[19]中，提出了一种多模式对数-双线性神经语言模型来对以图像和先前单词为条件的单词的概率分布进行建模。同样，毛等。 [26]和Karpathy等。 [17]提出使用多模式递归神经网络[31]模型制作字幕。 Vinyals等。 [36]和Donahue等人[7]已经建议使用LSTM [14]，一种先进的递归神经网络来完成相同的任务。最近，徐等人。 [37]提出将视觉注意力整合到LSTM模型中，以便在产生相应单词时将视线固定在不同的对象上。神经语言模型在生成类似人的图像字幕方面显示出了广阔的前景。除最近的方法[37]共同学习视觉注意力和字幕生成外，这些方法大多数都遵循类似的编码-解码框架。然而，[37]在训练和测试期间都需要位置采样，这使得该方法更加复杂。尽管他们更多地关注本地信息，但我们的方法更倾向于利用全局提示。

概述。
我们的工作属于字幕产生方法的第三族，该方法使用神经语言模型来产生字幕。但是，与上述方法不同的是，我们建议利用语义信息来指导生成，并提出LSTM模型的扩展，即gLSTM，用于语义信息的使用。此处的语义信息表示图像与其描述之间的相关性，该相关性以与基于传输的方法类似的方式获得。实验表明，语义信息显着改善了性能，并且我们的模型优于最近提出的最新方法[17，36]。有趣的是，尽管所使用的模型使用的是更复杂的模型，在训练和测试阶段需要进行位置采样，但该模型仍能够与最新和未发布的最新技术[37]媲美。

3. 背景

3.1. LSTM模型

递归神经网络（RNN）是对序列中的时间动态建模的好选择。但是，由于梯度的消失和爆炸问题，传统的RNN难以长期学习动力学[14]。 [14]中提出了长期短期记忆（LSTM）网络来解决这些问题。 LSTM体系结构的核心是存储单元（用于存储一段时间内的状态）和门（用于控制何时以及如何更新单元状态）。在存储单元和栅极之间有许多不同的连接方式。
Guiding the Long-Short Term Memory Model for Image Caption Generation

我们的模型所基于的LSTM块遵循的是无窥孔结构的LSTM [13]，在图2中以黑色表示。 LSTM模块中的存储单元和门定义如下：
Guiding the Long-Short Term Memory Model for Image Caption Generation
其中⊙表示元素的乘法，σ（·）表示S型函数，h（·）表示双曲正切函数。变量il代表输入门，fl代表忘记门，ol代表LSTM单元的输出门，cl是存储单元的状态，ml是隐藏状态，即块的输出由单元生成。变量xl是时间步l处序列的元素，W [·] [·]表示模型的参数。

3.2. 使用LSTM生成字幕

具有RNN模型[26、17、36、7、37]的字幕生成管道受神经机器翻译[5、32、1]中的编码器-解码器原理启发。编码器用于将源语言中的可变长度序列映射到分布式向量中，而解码器用于在目标语言上生成基于该向量的新序列。在培训过程中，目标是在给定源语言中的感觉的情况下，最大限度地提高正确翻译的对数似然性。当将此原理应用于字幕生成时，目标是在给定图像的情况下最大化图像字幕的对数似然，即 Guiding the Long-Short Term Memory Model for Image Caption Generation
其中xi表示图像，si1：Li表示长度为Li的句子中的单词序列，θ表示模型参数。为简单起见，在下面的部分中，只要上下文清楚，我们都会删除上标i。由于每个句子都由一个单词序列组成，因此使用贝叶斯链规则分解句子的可能性是自然的，
Guiding the Long-Short Term Memory Model for Image Caption Generation
其中s 1：l代表句子中直到第（7-）个单词为止的部分。为了使目标最大化。（6）在整个训练语料库中，我们需要定义对数似然对数p（sl | x，s1：l-1，θ），可以用RNN中时间步长的隐藏状态进行建模。仅基于存储单元的输出ml，使用softmax函数z（·）计算单词在时间步长+1上整个单词的概率分布，类似于[36]。

要将图像和句子输入LSTM，需要将它们编码为固定长度的向量。对于图像，首先计算CNN特征，然后通过线性变换将其映射到嵌入空间。对于句子，首先将每个单词表示为一个热向量，然后通过单词嵌入矩阵将其映射到相同的嵌入空间。最后，将图像和句子中的单词序列连接起来以形成新的序列，也就是说，将图像视为序列的开始符号，而单词序列则构成新序列的其余部分。通过将l的递归连接从1迭代到Li，该序列被馈送到LSTM网络进行训练。该模型的参数包括图像特征的线性变换矩阵，词嵌入矩阵和LSTM的参数。

3.3. 标准化典范相关分析

为了建立我们的语义表示，我们依赖于[10]中提出的规范化规范相关分析（CCA）来解决交叉模式检索问题。典范相关分析（CCA）[16]是一种流行的方法，用于将视觉和文本特征映射到公共语义空间。 CCA旨在针对两个视图X1和X2学习投影矩阵U1和U2，以使它们的投影最大相关，即，
Guiding the Long-Short Term Memory Model for Image Caption Generation
其中ΣX1X2，ΣX1X1和ΣX2X2是协方差矩阵。 CCA目标函数可以通过广义特征值分解来求解。通过使用特征值的幂对CCA投影矩阵的相应列进行加权，然后进行L2归一化，来计算归一化CCA。
Guiding the Long-Short Term Memory Model for Image Caption Generation
其中D是对角矩阵，其元素设置为相应维的特征值，而g1和g2表示两个视图的语义表示。余弦相似度用于在学习的公共语义空间中找到最近的邻居[10]。

4. 建议的方法

在本节中，我们描述为字幕生成任务建议的LSTM模型扩展。在新架构中，我们在门和单元状态的计算中添加了语义信息。这里的语义信息是从图像及其描述中提取的，作为单词序列生成过程中的指南。

4.1. gLSTM

LSTM模型中单词的生成主要取决于在当前时间步和以前的隐藏状态（在开始时包括图像信息）中的单词嵌入。此过程将逐步进行，直到遇到句子的结尾标记。然而，随着该过程的继续，仅在开始时馈送的图像信息的作用变得越来越弱。在序列开始时产生的单词也遭受相同的问题。因此，对于一个长句子，它可能会在句子结尾几乎“盲目”地进行生成。尽管LSTM能够在某种程度上保留长期记忆，但它仍然对句子生成提出了挑战[4，1]。在提出的模型中，词的生成是在全局语义信息的指导下进行的。我们将LSTM模型的扩展名为gLSTM。 gLSTM块中的存储单元和门定义如下：
Guiding the Long-Short Term Memory Model for Image Caption Generation
其中g表示语义信息的向量表示。与标准LSTM体系结构相比，在gLSTM中，我们为每个门和单元状态的计算添加了一个新术语。这个新术语代表了语义信息，它是视觉和文本领域之间的桥梁。语义信息g不会在时间步l上消失，因此在字幕生成期间可以作为全局指南。指导术语也可以是时间步长的，但代价是较高的复杂度模型。我们用红色总结了图2中的gLSTM网络架构添加。

4.2.语义信息。

在本节中，我们将详细介绍几种可以在模型中用作指导的语义信息。从直觉上讲，有三种提取语义信息的方法。首先，我们将其视为跨模式检索任务，并仅将检索到的句子用作语义信息。可替代地，语义信息也可以被表示为在视觉和文字表示等效的语义空间中的嵌入。最后一个是使用图像本身作为指导。

基于检索的指导（ret-gLSTM）。
基于检索的指导受到基于传递的字幕生成方法的启发。尽管通过基于传递的方法给出的生成句子可能并不完全正确，但它们确实与人类注释的真实字幕有一些共同之处。给定一个图像，我们首先进行跨模式检索，其目的是将相关文本查找到查询图像。然后，我们收集排名最高的描述。与其通过直接修饰这些句子来生成句子，不如将它们作为辅助信息并将它们提供给上一节中提出的神经语言模型。这些句子可能与图像不完全匹配。但是，它们为图像提供了丰富的语义信息。由于这些句子是由人类注释的，因此这些句子中的单词非常自然，并且很有可能出现在参考字幕中。

这里使用的交叉模式检索方法基于3.3节中提到的规范化CCA。在此文件中，图像和文本功能对应于CCA的两个视图。为图像计算CNN特征，为句子计算TF-IDF加权BoW特征。我们将图像和句子从它们自己的域投影到公共语义空间。给定图像查询，然后基于余弦相似度检索最接近的句子。我们从训练集中选择检索到的前T个句子（本文中T = 15）。这些句子由词袋（BoW）向量表示，该词袋向量作为额外的输入，即gLSTM模型的指南。

语义嵌入指南（emb-gLSTM）。
如上所述，我们可以明确地将交叉模式检索的结果用作指导。我们还可以隐式使用跨模式检索的中间结果，即使用规范化CCA作为额外输入来计算的语义表示。通过学习的投影矩阵将图像映射到公共语义空间中，并将计算出的语义嵌入作为指导提供给gLSTM模型。假设在CCA的公共语义空间中，两个视图共享等效的嵌入表示。因此，我们可以将图像域中的投影表示与文本域中的投影表示等同。与ret-gLSTM模型相比，语义表示的维数比BoW表示低得多，并且节省了查找最近邻居的计算。另外，我们还发现它的性能甚至比以前的方法还要好。

图片为指南（img-gLSTM）。
最后，我们将图像本身作为额外的输入进行实验。这是因为CCA是线性变换。那么自然的问题是我们是否可以在训练gLSTM模型期间直接学习此投影矩阵。因此，我们将图像本身添加为第三种额外输入。我们通过简单地将图像特征本身输入到gLSTM模型（即g = x）中进行实验验证，并让网络从头开始学习语义信息。

4.3. 长度归一化的波束搜索

在生成阶段，词汇量为K，存在长度为l的K1个句子作为图像字幕的潜在候选者，其中l未知。理想情况下，我们希望找到这样的句子，该句子使eq的对数似然性最大化。（7）。考虑到指数搜索空间，但是穷举搜索是棘手的。因此，改为采用启发式搜索策略。

这里我们使用波束搜索，它是基于RNN的模型的一种快速有效的解码方法[11，32]。在每次迭代中，只有具有最高对数似然性的T个假设生成被保留在波束池中。一旦遇到沿序列给定的单词生成的序列结束标记，就停止沿一个波束的搜索。搜索过程将继续进行，直到沿着池中所有波束的搜索停止为止。

直接使用单词的对数似然作为选择世代的标准是有问题的。由于每个单词的对数似然为负（因为概率小于1），因此对数似然的更多单词的总和导致较小的值。因此，当波束宽度大于1时，无论波束中每个生成的单词的质量如何，都更有可能选择尽早停止波束搜索作为最终字幕。这意味着这种波束搜索倾向于使用较短的句子，这在[12，4]中也可以看到。

有趣的是，偏向于短句往往倾向于低BLEU分数（BLEU @ 1,2），通常用于评估机器翻译算法。因此，简短的句子不仅倾向于主导推理，而且还会模糊评估和方法论的比较。为了弥补推理过程中对短句的偏见，我们建议按长度归一化单词的对数似然，即
Guiding the Long-Short Term Memory Model for Image Caption Generation
我们研究Ω的各种形式以进行归一化。

多项式归一化。 第一种可能性是设置Ω（ℓ）= |ℓ| m。请注意，当m = 1时，（15）成为困惑的定义。我们在本文中使用m = 1。这种规范化惩罚短句。

最小铰链归一化。 直观地讲，我们想自动生成一个长度接近基本事实的句子。由于在测试阶段我们不预先知道长度，因此我们将训练数据中的平均句子长度作为参考。我们将最小铰链长度函数定义为Ω（ℓ）= min {ℓ，µ}。这意味着所生成的句子仅在其长度小于平均长度µ时才受到惩罚。对于足够长的句子，我们仅关注其对数似然。

最大铰链归一化。 类似地，我们定义最大铰链长度函数Ω（ℓ）= max {ℓ，µ}。 max-hinge函数不是对短句进行总括化，而倾向于长句。

高斯归一化。 我们还可以使用高斯函数Ω（ℓ）〜N（µ，σ）来对数似然化，其中µ和σ是训练语料库中句子长度的均值和标准差。高斯正则化鼓励推论选择长度与训练集中的句子相似的句子。

我们在5.1节中通过实验验证了这些策略的有效性。

5. 实验

数据集和实验设置。我们对以下数据集进行实验。

Flickr8k [15]，Flickr30k [39]和MS COCO [25]。
Flickr8k数据集是一个受欢迎的数据集，由Flickr收集的总共8 000张图像组成，分别分为6个，000个，1000个和1000个图像的训练，验证和测试集。数据集中的每个图像都带有5个由人类注释的参考标题。与Flickr8k相似，Flickr30k数据集包含从Flickr收集的31，000张图像，以及由人类注释者提供的5个参考语句。但是，它不提供拆分设置文件。因此，我们使用[18]和[17]中使用的公开拆分设置，即29，000张图像用于训练，1，000张用于验证，1，000张用于测试。大型数据集MSCOCO包含82,783张用于训练的图像和40504张用于验证的图像，每个图像与5个标题相关联。请注意，我们不会在用于MS COCO图像标题挑战的测试集上对其进行评估，而是使用先前工作中使用的公开可用分割[17]，即训练集中的所有82,783张图像用于训练，而验证集中的所有5,000张图像用于验证。和测试。评估措施。在这里，我们在机器翻译和图像标题生成文献中使用了两个最受欢迎的度量，即BLEU [29]和ME-TEOR [6]度量。

BLEU是基于精度的指标。 BLEU的主要组成部分是所生成字幕相对于参考的n克精度。分别为每个n-gram计算精度，然后将B @ n计算为这些精度的几何平均值。高阶n-gram的BLEU间接测量语法连贯性。

但是，BLEU被批评倾向于短句。它仅考虑精度，而未考虑召回率。由于这个原因，METEOR在最近的著作中也有报道[3，8，37]。 METEOR通过基于生成代词和参考词之间的单词级别匹配计算分数并返回一组参考词的最大分数，来评估生成的句子。在匹配分数的计算中，它考虑了单字精度，单字召回率和对齐方式。因此，ME-TEOR考虑了准确性，回忆性和语法重要性。在用户评估研究中，METEOR [24]与人类判断的相关性高于任何BLEU阶。

所有分数均使用辅助字幕代码1计算。实施细节。在以下实验中，我们使用MatConvNet工具箱[35]和16层牛津网络[30]预先训练的模型来计算CNN特征，并提取最后一个完全连接层的输出作为图像表示。对于文本的预处理，对于神经语言模型，我们使用公开数据，其中将文本转换为小写字母，忽略非字母数字字符，并且仅保留在训练集中出现至少5次的单词来创建词汇。对于CCA，我们使用NLTK工具箱[2]进一步对单词进行词素化，并基于这些单词构建词汇表（ﬂ ickr8k为3000个单词，ﬂ ickr30k和MS COCO为5000个单词）。然后，将tf-idf加权的BoW向量计算为CCA的句子表示。对于Flickr8k和Flickr30K，我们将图像和单词嵌入的尺寸以及gLSTM的隐藏层的尺寸设置为256。对于MSCOCO，我们将数字设置为512（请注意，这比其他工作中使用的尺寸小得多）。 gLSTM模型是使用RMSProp [34]训练的，该方法是使用自适应学习率算法的一种随机梯度下降方法。对于Flickr8k和Flickr30k，学习率初始化为1e-4，对于MS COCO，初始化为4e-4。我们使用辍学和提早停止来避免过度拟合，并使用验证集对数可能性进行模型选择。对于CCA，我们按照[10]中的建议设置p = 4，对于Flickr8k和Flickr30k，公共空间的尺寸设置为200，对于MS COCO，公共空间的尺寸设置为500，我们发现在实践中效果很好。在测试阶段，我们将所有实验的光束大小设置为10。我们在Karpa-thy的NeuralTalk代码2上为建议的gLSTM模型构建了代码，该代码实现了Google论文中的单个模型[36]。请注意，我们以该模型为基准。

5.1. 长度归一化

在此实验中，我们评估了音长标准化对字幕生成的重要性。我们在Flickr8k数据集上进行了实验，并在表1中报告了结果。为清楚起见，我们基于LSTM基准而非gLSTM进行了该实验。
Guiding the Long-Short Term Memory Model for Image Caption Generation

我们观察到，与基于非标准化对数似然选择的基线相比，长度非正规化对BLEU度量或METEOR度量都有积极影响。多项式，最小铰链和高斯归一化分别为METEOR和BLEU带来了最大的改进。因此，在以下实验中，我们仅通过这三种长度归一化方法报告提出的gLSTM的性能。此外，我们还计算生成的句子和参考的平均长度。
Guiding the Long-Short Term Memory Model for Image Caption Generation

5.2. 不同指导类型的gLSTM

在本实验中，我们将根据第4.2节中的描述，使用不同类型的语义信息评估gLSTM模型。为了公平地比较，我们还对基线进行了长度长度归一化的波束搜索。我们在Flickr8k上运行此实验，并在表3中报告结果。
Guiding the Long-Short Term Memory Model for Image Caption Generation
结果表明，语义信息在性能上有很大的提高，特别是emgLSTM，具有语义嵌入指导的gLSTM。我们还观察到img-gLSTM（以图像本身为指导的gLSTM）并没有带来任何改善，甚至降低了性能。此外，我们还针对基线进行了实验，但是每个门具有更多参数（512维而不是256维），以强调改进主要来自于全球指南。网络参数总数为5.2M，而建议的gLSTM ret-gLSTM和B的网络参数总数为5.9M和3.1M。如表3所示，我们可以看到，增加参数确实可以提高性能，但仍然有所提高比建议的emb-gLSTM夏娃差

5.3. 与最新技术的比较

我们将拟议的gLSTM与最新的字幕生成方法进行了比较。我们在Flickr8k和Flickr30k上进行了实验，并在表4中报告了结果。我们仅评估emb-gLSTM，因为它计算效率高，并且在先前的实验中在不同模型中均获得了最佳性能。对于大多数评估方法，他们使用具有更深层网络架构的CNN，例如Oxford-Net [30]和GoogLeNet [33]。不使用更深的CNN的方法包括LRCN-CaffeNet [7]和m-RNN-AlexNet [26]。请注意，Google的方法[36]使用多个LSTM模型的集合，而我们的方法仅使用单个emb-gLSTM模型。从表中我们可以看到，所提出的emb-gLSTM模型相对于最新方法表现良好。有趣的是，它甚至可以与基于复杂性和昂贵的关注机制的最新技术[37]媲美。
Guiding the Long-Short Term Memory Model for Image Caption Generation

6. 结论

在这项工作中，我们提出了用于图像标题生成的LSTM模型的扩展。通过将语义信息作为额外输入添加到LSTM块的每个单元，我们已经表明，该模型可以更好地保持“正常运行”，描述图像内容而不会漂移到不相关但通用的短语。此外，我们探索了用于波束搜索的不同类型的长度归一化，以防止偏向非常短的句子，从而进一步改善了结果。所提出的方法可在各种基准数据集上实现最新的性能。此外，我们的主要贡献是，在很大程度上，是对其他方法的关键方面的补充，例如注意力机制[37]或模型集合[36]，表明通过整合这些方法可以进一步提高性能计划。
Guiding the Long-Short Term Memory Model for Image Caption Generation

Guiding the Long-Short Term Memory Model for Image Caption Generation