概要
本文介绍了NIC算法,将CNN与LSTM结合,做了一件什么事呢。就是小学时的看图说话,利用CNN提取图片特征,并作为t−1输入LSTM中,将描述性词汇转化为独热编码,利用嵌入模型做为St输入LSTM中。
公式
最大化似然函数:
θ⋆=argθmax(I,S)∑logp(S∣I;θ)
可能性:
logp(S∣I)=t=0∑Nlogp(St∣I,S0,…,St−1)
在LSTM中:
ht+1=f(ht,xt)
itftotctmtpt+1=σ(Wixxt+Wimmt−1)=σ(Wfxxt+Wfmmt−1)=σ(Woxxt+Wommt−1)=ft⊙ct−1+it⊙h(Wcxxt+Wcmmt−1)(7)=ot⊙ct=Softmax(mt)
输入和输出:
x−1xtpt+1=CNN(I)=WeSt,t∈{0…N−1}=LSTM(xt),t∈{0…N−1}
网络架构
