see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id

这是一篇来自2017年的中科院自动化所的论文,也是导师让读的3篇神经网络与多任务学习的3篇论文之一。读的不是很懂,把主要方法记录一下。

这篇论文采用三元组的输入形式,以序列3元组的形式去计算损失函数。在使用CNN去提取特征之后,分别通过时序RNN去学习特征,和图像序列组合后通过空间RNN来进行度量学习。
下图是本文的基本结构和框架:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
从总体框架来看,这篇和之前看的论文的孪生网络+RNN提取特征的方法比较类似。

网络结构综述:
在CNN提取上,作者使用了CaffeNet的结构,这个网络框架和AlexNet类似,除了没有归一化层和pooling层来进行信息的交换。这个网络结构拥有5个卷积层和2个全连接层(表示为fc6~fc7)本文把CNN记作f(x),而把fc7的特征图记作f(x)fc7。
之后的时序RNN网络部分对于每个序列来学习时序特征,这个过程可以用公式记录为:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
其中D1为fc7层的维度,D2为RNN的输出维度。在损失函数上,三元组损失函数用来把相似的样本对拉近,把不相似的样本对推远。
时序网络结构如下图所示:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
其中的RNN采用LSTM的网络结构,以方便提取更久远的帧的信息。其中的attention部分指代一个关键帧的选择算法,attention部分输出的是各帧的特征图加权后的结果:具体的计算方法如下图所示:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
其中的ht部分是上一个RNN节点中的隐变量部分,图中的U,V和W均表示为全连接层。
在节点输出之后,进入时序的pooling层把时序特征均值化。
空间RNN网络:
初始的时候听到这个名词着实吃了一惊,也因为自己涉猎的文献过少,才少见多怪。
在这篇论文中,Sptial Recurrent Model(SRM)是设计用于视频领域的度量学习。
SRM的结构如下图所示:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
在f(x)的pooling5层次,把f(xi)pool5和f(xj)pool5层次通过矩阵的元素减法连在一起。初始的特征图可以看作是一个初始的不相似特征图,接一个大小为1*1的卷积核。得到的新特征图拷贝成6份,分别通过6个RNN,每个RNN沿着特定的方向扫描特征图,分别是从上至下,从左至右,从前至后以及分别相反。之后各个空间RNN的输出连在一起,另一个大小为1*1的卷积层把语境特征整合在一起,最后接一个全连接层来提取高阶特征。
时序RNN的输出被表示为F(x)
下图说明空间RNN的工作原理:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
每个方向都是用特定的颜色渲染的。 左边是空间RNN的输入特征图。 黄色的数字表示沿着每个方向的顺序。 中间显示RNN的过程。 它以给定的顺序接受输入,并以相同的顺序生成输出。 权利表达式输出可以作为特征图中的输入。 此处为RNN选择了LSTM网络。

在具有1×1内核的卷积层之前,六个空间RNN的输出完全堆积在一起,产生所谓的语境特征。 我们进一步解释这个卷积的意义。 如图7所示,堆叠特征图中的每个位置代表整合的差异特征映射。 因此,卷积层的特征图中的每个位置是其六个周围信息的组合。 在提出的SRM的帮助下,学习的度量对照明变化和遮挡不太敏感。
空间网络的相似性度量被表示为M(xi,xj)
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id

在测试阶段,最后的相似性被表示为:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id

实验部分:
本文选择的数据集为ILIDS_VID、PRID2011和MARS数据集。
实验细节上:
本文所使用的基本框架为caffenet,实验序列长度被设定为6,从原始序列中随机选择得到。fc6层和fc7的大小被设定为1024
对于图像来说,每个图像被resize成227*227的大小以适应网络结构。
实验的指标采用CMC曲线和mean average precision(map)???,改方法用于讨论目标行人是否真的存在。
CMC将用于ILIDS_VID和PRID2011,mAP和CMC将用于MARS

对于框架每个部分有效性的证明:
a.每个步骤的有效性
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
结论:
1.通过比较“CNN”,“CNN + RNN”和“CNN + TAM”,我们可以得出结论:时序RNN模型是有效的,即可以帮助挑选出相关的框架。 2.“CNN + SRM”表现优于“CNN + DIFF”,表示空间RNN模型有助于学习更好的指标。
3.“ALL”表现最好,表明联合特征学习和度量学习比单独执行要好。

和领域内其他方法的比较:
see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id
从表中可以看出,本文提出的方法在PRID2011和MARS上都表现的最好。在PRID2011上的表现略差于YOU等人提出的TOP-PUSH的方法。