行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

参考文献:https://arxiv.org/abs/1901.05742
代码实现:https://github.com/yuange250/video_pedestrian_attributes_recognition
包括理解!

A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

摘要

本文研究了基于视频的行人属性识别问题,挑战主要在于空间和时间建模,以及如何将它们结合起来实现有效的动态视频行人属性识别。针对这一问题,提出了一种基于传统神经网络和时间注意策略的多任务模型。由于公开数据集较少,本文提出了两种新的扩展属性定义的大规模视频数据集,并在此基础上验证了基于视频的行人属性识别方法和提出的新网络结构的有效性。这两个数据集发布在http://irip.buaa.edu.cn/mars_duke_attributes/index.html。

1 引言

行人的性别、年龄、衣着特征等属性在智能监控系统中应用广泛,近年来引起了人们的广泛关注,它可以用于检索行人和协助其他计算机视觉任务,如人类检测[1],人的重新识别[2,3,4,5,6,7,8]等。

近年来,人们对行人属性识别进行了大量的研究。Layne等[2] ,Deng等[9] ,Li等[3] 利用支持向量机对行人属性进行识别,Zhu等[10]利用AdaBoost进行识别。近年来,卷积神经网络(CNN)被广泛采用,Sudowe等[11] 提出一个联合训练的整体CNN模型,Li等[12] 提出个人和群体属性CNN模型,Liu等[13] 将注意力模型引入基于CNN的行人属性识别中,Wang等[14] 使用递归学习来建模属性相关性,Zhao等[15] 通过分析组内和组间的相关性进一步改进了递归学习方法。由于服装属性与空间位置高度相关,Zhang等[16] ,Li等[17] 使用了姿势估计。

虽然性能良好,但上述方法都是基于静态图像的,它们在每个实例只有一个图像的数据集上进行训练和评估[9,18,19,20,21,22,23]。但是,在实际的监视场景中,可以使用连续的图像序列。从图1(a)可以看出,对于一个特定的属性,单个行人快照(虚线矩形)不一定是最具代表性的。除此之外,序列数据还可以提供强的时间线索(见图1(b)),这在现有的基于图像的方法中是被忽略的。此外,如图1(c)和图1(d)所示,视频数据在处理一些特殊情况和质量问题方面显示出明显的优势。基于视频的行人属性识别方法是合理的。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
本文提出了一种基于视频的行人属性识别的深度学习方法,据我们所知,它是第一个利用视频进行行人属性识别的方法。现有方法仅限于静态图像的原因可能是缺乏数据,为了解决这一问题,我们对两个具有丰富属性的大规模行人图像序列数据集进行了标注,实验结果表明该方法是有效的。本文的具体贡献包括:

提出了两个具有丰富属性标注的大规模行人视频数据集
提出了一种基于传统神经网络和时间注意策略的多任务模型用于行人属性识别
• 进行了大量的实验,实验结果清楚地显示了基于视频的行人属性识别的优越性。

本文的其余部分安排如下:第二节描述带注释的数据集,第三节介绍了提出的基于视频的行人属性识别方法,实验结果见第4节,结论见第5节。

2 数据集

现有的行人属性识别数据集主要是基于图像的,如PETA[9]、RAP[18]和Market-1501[19,24]。幸运的是,随着基于视频的人的再识别(ReID)技术的发展,大规模的行人图像序列数据成为可能。Motion Analysis and Re identification Set(MARS)[25]和DukeMTMC-VideoReID[26]是最新发布的数据集,MARS由6个摄像头捕获的1261人的20478个轨迹组成,而DukeMTMC-VideoReID数据集包含8个摄像头捕获的1402个不同行人的4832个轨迹。MARS是Market-1501的扩展,它们具有相同的身份,DukeMTMC-VideoReID也是DukeMTMC-ReID的扩展,DukeMTMC-ReID也遵循相同的身份规则。尽管Lin等[24]为Market-1501和DukeMTMC-ReID提供了身份级别的属性注释,但这些注释不能直接用于MARS和DukeMTMC-VideoReID,原因有二:第一,基于图像的数据集和基于视频的数据集之间的实例对应不是一对一的;第二,如图3所示,由于一些时间的变化,即使是同一个人在不同的轨迹中,存在一些属性出现而一些属性消失。因此,Market-1501和DukeMTMC-ReID的标识级别注释对于MARS和DukeMTMC-VideoReID是不准确的。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
为了解决上述问题,我们使用基于Lin等[24]的扩展属性定义重新标记MARS和DukeMTMC-VideoReID来构建新的数据集。如图2所示,MARS数据集中的每个轨迹有16种属性:运动(行走、站立、跑步、骑自行车、各种)、姿势(正面、侧面正面、侧面、侧面背部、背部、各种)、性别(男性、女性)、头发长度(长、短)、上衣/袖子长度(长、短)、裤长(长、短),下装类型(裤子、连衣裙),戴帽子(是、否),背包(是、否),手提包(是、否),九种底色(黑色、白色、红色、紫色、黄色、灰色、蓝色、绿色、复合色),十种上装颜色(黑色、白色、粉色、紫色、黄色、灰色、蓝色、绿色、棕色,复杂)和四种年龄(儿童、青少年、成年人、老年人),属性总数为52。DukeMTMC-VideoReID数据集也使用相同的扩展属性定义规则重新注释。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
属性可以分为两类:身份相关属性和行为相关属性。现有技术只关注前者,因为它们的主要目的是从监控视频中检索人。然而,从图2(左栏)可以看出,与行为相关的因素可以极大地影响行人外观。我们认为识别这些属性不仅有助于行人的全面理解,而且有助于身份相关属性识别,因为排除行为引起的差异可以提高对包含相同属性特征的显著帧的关注(理解:把行为属性和身份属性分开,这样就互不影响,不同帧的图像对相同属性特征的贡献不相同,应关注每个帧对属性的重要性,找出显著帧)。

3 方法

在这一部分中,我们首先描述了行人属性识别网络的总体结构,然后详细介绍了该体系结构的时间注意策略。

3.1 网络架构

行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
我们提出的模型的总体架构如图4所示。在网络开始时,我们选择ResNet-50[27]作为骨干模型,最后一个flatten层的输出作为frame-level空间特征,然后将网络分为两个通道:运动姿态通道和ID相关通道。我们之所以将分类器分为两个通道,是因为运动姿态属性与ID无关,其分类器相对于ID相关属性会关注空间特征的不同部分,因此直接在所有ID无关和ID相关属性分类器之间共享相同的空间特征将导致对于一个特征竞争的情况,这意味着与ID无关的分类器和与ID相关的分类器在训练过程中会相互约束,实验验证了这种分离方法的有效性。(理解:运动姿态通道和ID相关通道分别对应身份相关属性和行为相关属,它们俩无关,如果共用特征会相互约束)

I=I={I1,I2,,InI_1,I_2,…,I_n}为输入图像序列或轨迹,其中nnwwhh分别为帧号、图像宽度和高度,我们在实际中选择n6w112h224n=6,w=112,h=224。使用空间特征提取器Resnet-50,得到每个帧的2048×4×7张量,然后利用两个通道中的conv+pooling单元分别对空间特征向量进行处理。因此,n×3×w×hn×3×w×h张量被转换成二维矩阵S=S={S1,S2,,SnS_1,S_2,…,S_n},SRn2048S ∈ R^{n*2048}

然后利用属性分类器对融合后的空间特征向量进行处理。首先,每个属性分类器中的时间注意模块以空间特征向量为输入,生成一个大小为n×1n×1的时间注意向量AA,表示==每个帧在识别特定属性中的重要性(理解:==关注的是时间重要性而不是区域重要性,其他很多注意力机制论文关注的是区域)。然后利用时间注意向量对每个帧的空间特征进行加权,生成识别特定属性的图像序列的最终特征向量F=AT×SF=A^T×S,最后将最终特征向量送入全连接层,得到属性分类结果。

第四节从属性识别的准确性角度评价了分离通道策略和时间注意策略对行人属性识别的影响,结果表明,这两个策略是基于视频的行人属性识别的最佳选择。

3.2 时间注意策略

尽管ResNet-50能够从每一帧中捕获有效的空间信息,但是我们发现每一帧在识别不同属性方面的重要性可能不同。换言之,一些帧可能对识别一个属性有很大帮助,但可能对另一个属性有弊。从图1和图2可以看出,不同属性的识别可能依赖于不同的关键帧,因此每个单一属性分类器都配备了时间注意模块,这也有助于减少分类器之间共享相同的空间特征向量所带来的负面影响。

如图5所示,通过在不同的分类器上应用独立的时间注意模块,可以生成不同的时间注意向量,以适应它所服务的属性分类器,这种时间注意策略的优越性将在第4.3节中介绍。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

4 实验

在这一部分中,我们首先简要介绍了MARS和DukeMTMC-VideoReID数据集的训练/测试集划分以及实验中的一些训练/测试设置。然后将本文方法与基于图像的方法以及其他视频分析模型如3DCNN[28]和CNN-RNN模型[29]进行了性能比较,证明了该多任务结构在基于视频的行人属性识别中的优越性。最后消融研究证明了分离通道策略和时间注意策略的有效性。

4.1 设置

我们遵循MARS[25]和DukeMTMC-VideoReID[26]的原始训练/测试集划分规则。MARS训练集由625人的8298条轨迹组成,其中8062条轨迹对应626名行人组成测试集,这些轨迹中的平均帧数为60。DukeMTMC-VideoReID的轨迹数较小,但平均帧数较大,为169。由于人的再识别任务的特殊性,两个数据集在其训练集和测试集中都不共享身份。

在训练过程中,首先从训练集中随机抽取K=64个轨迹,然后从每个轨迹中随机抽取n=6个帧,形成训练批,因此每个训练批由K×nK×n帧组成,随机抽样策略比连续抽样策略更适合于时间注意模型,因为它增加了抽样帧之间的差异。在测试过程中,对于每个包含F帧的测试轨迹,将这些帧随机分成[F/n][F/n]组,测试属性预测结果是这些组之间的平均预测结果。选择交叉熵损失作为损失函数,选择学习率为0.0003的Adam作为训练的优化器。

4.2 与其他方法的比较

本文的主要工作是将基于视频的行人属性识别方法引入到行人属性识别中。为了证明其优越性,本文还提出了一种基于两个数据集的帧图像训练的多分类预测头的基线ResNet-50模型,如表1和表2所示,除了一些高度依赖于空间特征的属性外,该模型和CNN-RNN模型在大多数属性上都取得了较好的效果,证明了该多任务体系结构的有效性和基于视频的行人属性识别方法的优越性。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
在基于视频的行人属性识别中,引入了两种基于深度的视频分析模型3DCNN和CNN-RNN。结果表明,3DCNN不适合该任务,这可能意味着三维卷积运算会丢失轨迹中许多重要的空间线索,CNN-RNN模型在运动属性识别上比我们的模型更有效,这是因为运动属性的识别依赖于从轨迹中寻找重要的时间线索,而这些线索并不能仅仅通过时间注意策略来实现,但是我们的模型在其他属性上仍然有更好的效果,这种现象与图1和图5所示的观察结果一致,说明时间特征也会造成空间信息的丢失,而突出关键帧的代表性需要必要的空间线索。我们的数据集中注释的行人属性可以与身体的任何部分相关(参见图2),换句话说,对某些属性重要的区域对其他属性不一定同样重要,强调某些特定的空间区域可能会导致细节损失,这是合理的,这就是为什么时间注意策略在识别大多数行人属性方面优于RNN的可能原因。

4.3 消融研究

由于我们在多任务架构中引入了分离通道策略和时间注意策略,因此我们进行了一系列的消融实验来说明这些策略的有效性。如表3所示,这两种策略都能提高识别性能,而时间注意策略在两种度量中的贡献更大,这主要是因为时间注意策略不仅能从输入轨迹中提取出有区别的帧,也可以缓解第3.1节中描述的特征竞争现象。
行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition
通道分离策略解决了特征竞争问题,将属性分割为两个通道,并对同一空间特征向量进行conv+pooling分离运算,可以直接抑制ID相关属性和ID不相关属性之间的特征竞争。而时间注意策略是潜在的,因为每个属性分类器都包含一个时间注意模块,所以在后向传播过程中,时间注意模块可以帮助后向梯度平滑传递到底层,这也可以起到与分离通道策略类似的作用。

从表3、表1和表2可以看出,即使是基于视频的时间pooling baseline也能优于基于图像的方法,这也说明了基于视频的行人属性识别方法的优越性。

5 结论

本文研究了基于视频的行人属性识别方法。提出了两种基于视频的行人属性识别的大规模数据集。在传统神经网络和时间注意策略的基础上,提出了一种新的多任务结构。实验表明,基于视频的行人属性识别方法优于基于图像的行人属性识别方法,该方法具有很好的识别效果。