《Pose Invariant Embedding for Deep Person Re-identification》reid开源 文章翻译
Abstract
行人偏差主要是由探测器误差和姿态变化引起的,是鲁棒的人再识别系统的关键问题。在配准不佳的情况下,背景噪声会显著地忽略特征学习和匹配过程。为了解决这一问题,本文引入了位姿不变嵌入(PIE)作为行人描述符。首先,为了使行人与标准姿态对齐,引入了PoseBox结构,该结构通过姿态估计和仿射变换生成。**其次,为了减少姿态估计误差和姿态估计信息丢失对PoseBox构建的影响,我们设计了一个以原始图像、PoseBox和姿态估计置信度为输入的PoseBox fusion (PBF) CNN架构。**因此,所提出的饼状描述符被定义为用于检索任务的PBF网络的全连接层。实验在1501、CUHK03和VIPeR数据集上进行。我们证明仅PoseBox就能获得不错的re-ID准确性,并且当整合到PBF网络时,学习的饼图描述符与最先进的方法相比,可以产生具有竞争力的性能。
1.Introduction
本文研究了人的再识别问题。给定一个探测(相关人员)和一个图库,我们的目标是在图库中找到包含与探测人员相同的人的所有图像。我们关注识别问题,这是一个检索任务,其中每个探测在[42]库中至少有一个地面真值。影响里德精度的因素有很多,如检测/跟踪误差、光照变化、姿态、视点等。
影响reid准确性的一个关键因素是行人的错位,其原因有两个。首先,行人自然会摆出各种姿势,如图1所示。姿势的变化意味着身体部分在包围盒内的位置是不可预测的。例如,有可能一个人的手举过头顶,或者一个人骑自行车而不是直立。引起失调的第二个原因是检测错误。如图1第二行所示,检测误差可能会导致严重的垂直失调。
当行人排列不齐时,就会影响识别的准确性。例如,在reid中常见的做法是将边界框划分为水平条纹[20,42,1,21]。这种方法是在假定有轻微的垂直偏差的情况下工作的。但是,当垂直偏差确实发生时,就像图1第二行中的情况一样,一个人的头部将被匹配到一个未对齐的图像的背景。因此,当发生严重的错位时,水平条纹的效果可能会更差。在另一个例子中,在不同的行人姿态下,背景可能会被特征提取器错误地加权,从而影响后续的匹配精度。
据我们所知,来自同一组的前两篇文献[8,7]明确考虑了失调问题。两幅作品都使用了图像结构(PS),其动机和构造过程与PoseBox相似,检索过程主要依赖于匹配规范化的身体部位。虽然构建标准化姿态的想法是相似的,但我们的工作是使用最先进的基于CNN的姿态估计器定位人体关节,PoseBox的组件不同于PS,大规模评估证明了这一点。我们工作的另一个不同之处是匹配程序。虽然[8,7]没有讨论在真实数据集中普遍存在的位姿信息误差,但我们证明了这些误差使得仅与PoseBox进行刚性特征学习/匹配的结果不如原始图像,而三流PoseBox融合网络有效地缓解了这一问题。
考虑到上述问题和以往方法的局限性,本文提出了位姿不变嵌入(PIE)作为鲁棒视觉描述符。这涉及两个步骤。首先,我们为每个行人边界框构造一个PoseBox。PoseBox描绘了一个直立行走的行人。PoseBox在姿态估计器[34]的帮助下进行了精心设计,旨在生成排列良好的行人图像,从而使学习到的特征能够在强烈的姿态变化下找到相同的人。使用一个标准的CNN架构进行单独训练[37,41,44],我们证明PoseBox产生了非常不错的re-ID准确性。
其次,为了减少PoseBox构建过程中信息丢失和姿态估计误差的影响(图2),我们构建了一个PoseBox fusion (PBF) CNN模型,输入三种流:PoseBox、原始图像和姿态估计置信度。PBF算法实现了原始图像与PoseBox之间的全局优化。因此,PIE被定义为PBF网络的FC**。在几个基准数据集上,我们证明了联合训练程序在最先进水平下具有竞争力的识别精度。
总之,本文有三个贡献
- 次要贡献:PoseBox与之前的工作[8]具有相似的性质。它支持良好的行人匹配,并产生令人满意的重新识别性能时,单独使用。
- 主要贡献:作为PoseBox Fusion (PBF)网络的一部分,提出了位姿不变嵌入(PIE)。PBF融合了原始图像、PoseBox和姿态估计误差,在姿态估计失败时提供了一种后退机。
- 使用PIE,我们报告在市场1501、CUHK03和VIPeR数据集上具有竞争力的重新识别准确性。
2. Related Work
Pose estimation
位姿估计的研究已经从传统的方法[8,7]转向了继“深度”[30]之后的深度学习。最近的一些方法采用多尺度特征,并研究如何将它们结合起来的机制[29,26]。通过调整一元分数和两两比较,在身体点数之间注入空间关系也是有效的[11,27]。本文采用卷积位姿机(CPM)[34],这是一种多阶段连续位姿预测的最先进的位姿估计器。
Deep learning for re-ID
由于其优越的性能,基于深度学习的方法已经在过去两年统治了reid社区。在之前的两幅作品[20,39]中,使用了以两幅图像为输入的siamese模型。在后期的工作中,对该模型进行了多方面的改进,如注入更复杂的空间约束[1,6],对物体的序列属性进行建模等零件采用LSTM[32],并对不同的图像对[31]挖掘判别匹配零件。在[43]中指出,siamese模型只使用弱的reid标签:两个图像是否是同一个人;提出了一种充分利用强识别标签的识别模型。之前的一些工作采用了识别模型[37,36,41]。在[41]中,将视频帧作为每个person类的训练样本,在[37]中,发现每个训练域的有效神经元,并提出新的dropout策略。在我们的工作中,[36]中提出的架构更类似于PBF模型。在[36]中,手工制作的低级功能是在连接到softmax层的全连接(FC)层之后连接的。我们的网络类似于[36],它将姿态估计的置信度分数与另外两个FC层连接起来。它不同于[36],因为我们的网络采用三个流作为输入,其中两个是原始图像。
Poses for re-ID
虽然姿势改变的是男性以往的许多研究都将其作为影响re-ID的一个因素,但讨论两者之间关系的报告却寥寥无几。Farenzena et al.[12]提出了检测人体不同部位的对称轴线的方法。姿态变化后的区域特征。在[35]中,HOG检测器提供上身方向的粗略估计,然后将上身呈现到一个铰接的3D模型的纹理中。Bak等人进一步将每个人分成三种姿势类型:前、后、侧。在[9]中利用了类似的思想,其中使用了四种姿势类型。这两种方法[3,9]都根据不同的测试姿态对应用特定于视点的距离度量。最接近PoseBox的作品是[8,7],它构建了图形结构(PS),与PoseBox的概念类似。他们使用传统的姿态估计器和手工制作的描述符,远远落后于CNN。我们的工作采用了一整套更强大的技术,并设计了一个更有效的CNN结构,证明了在大规模数据集上具有竞争力的重新识别精度。
3. Proposed Method
3.1. PoseBox Construction
PoseBox的构建分为两个步骤,即、姿态估计和姿态盒投影。
Pose estimation.姿态估计
本文采用了卷积位姿机(CPM)[34]的现成模型。简而言之,CPM是一个连续的卷积架构,它强制中间监督以防止渐变消失。共检测到14个人体关节,即、头、颈、左、右肩、左、右肘部、左、右手腕、左、右髋、左、右膝、左、右踝关节,见图3身体部位发现与仿射投影第二列。
Body part discovery and affine projection.身体部位的挖掘和仿射投影
从检测到的关节中,可以描绘出10个身体部位(图3第三列),包括头部、躯干、上肢和下臂(左、右),上肢和下肢(左、右),几乎覆盖了整个身体。这些四边形部分被投影到矩形使用仿射变换。
在更多的细节中,头部是通过头颈的关节来定义的,我们手动将每个头框的宽度设置为其高度的23倍(从头部到颈部)。上臂由肩部和肘关节约束,下臂由肘关节和腕关节约束。武器盒的宽度设置为20像素。同样,上肢和下肢分别由髋关节和膝关节、膝关节和踝关节定义。它们的宽度都是30像素。躯干由四个身体关节组成,即,两个肩膀和两个臀部,所以我们只是画一个四边形的躯干。由于姿态估计误差,仿射变换可能会遇到奇异值。因此,在实际应用中,当人体部位的姿态估计置信度低于阈值(设置为0.4)时,我们加入了一些小的随机扰动。
Three types of PoseBoxes.三种Pose Boxes
在之前几部讨论不同部位表现的作品中,一个常见的观察结果是躯干和腿的贡献最大[8,1,6]。这是意料之中的,因为最明显的特征存在于上半身和下半身的衣服上。基于现有的观察,本文构建了三种类型的PoseBoxes,如下所述:
-
PoseBox 1。它由躯干和两条腿组成。腿由上、下两部分组成。PoseBox 1包括两个最重要的身体部分,是其他两种PoseBox类型的基线。
-
PoseBox 2。在PoseBox 1的基础上,我们进一步添加了左右臂。手臂包括上臂和下臂子模块。在我们的实验中,我们证明了PoseBox 2比PoseBox 1更好,因为武器带来了更丰富的信息。
-
PoseBox 3。在PoseBox 2的基础上,我们将head box放在躯干box的顶部。从[8]中可以看出,head的加入带来了边际性能的提升。在我们的案例中,我们发现PoseBox 3略低于PoseBox2,这可能是由于频繁的头部/颈部估计错误。
Remark
PoseBox的优势是双重的。首先,姿态变化可以纠正。其次,可以很大程度上去除背景噪声。
PoseBox也受到两个方面的限制。首先,姿态估计误差经常发生,导致不精确地检测关节。其次,PoseBox是手工设计的,因此不能保证它在信息丢失或re-ID准确性方面是最优的。我们通过将在3.3节中介绍的融合方案来解决这两个问题。具体来说,对于第二个问题,我们注意到我们是手动构建posebox的,因为当前的re-ID数据集不提供地面真实姿势,如果没有地面真实姿势,设计端到端的学习方法来自动生成标准化姿势就不是一件小事。
3.2.Baselines
本文分别在原行人图像和PoseBox的基础上构造了两条基线。根据最近的调查[43]的结果,识别模型[19]优于验证模型[1,20]。,每个边界框的标识,而后者仅使用弱标签,即,两个盒子是否属于同一个人。因此,本文采用的是识别CNN模型(图4),具体而言,本文采用的是标准的AlexNet[19]和Residual-50[15]架构。我们建议读者参考各自的论文以获得详细的网络描述。在训练中,我们使用默认参数设置,除了编辑最后FC层具有相同数量的神经元数量不同的id的训练集,在测试过程中,给定一个输入图像的大小为224×224,我们提取FC7 / FC8 AlexNet**,并为ResNet-50 Pool5 / FC**。经过’ 2归一化后,我们使用欧氏距离在测试集中进行人员检索。对于输入图像类型,本文使用了两个基线:
•Baseline1:原始图像(调整为224×224)为
在训练和测试期间用作CNN的输入。
•Baseline2:使用PoseBox(调整为224×224)
作为训练和测试期间CNN的输入。请注意,
每次只使用一种PoseBox类型。
3.3. The PoseBox Fusion (PBF) Network
Motivation.
在PoseBox构建过程中,可能会出现姿态估计误差和信息丢失,导致PoseBox的质量下降(如图2所示)。如图5和图1所示,当检测到缺失部分或行人图像分辨率较低时,位姿估计可能失败。另一方面,当种植人类从一个边界框部分,这是不可避免的,错过了重要的细节,如包和伞(图2)。建设高质量PoseBoxes和失败中信息丢失的部分裁剪可能导致损害结果的基线2。这在实验中得到了证实,基线1比基线2有更好的识别准确率。
对于第一个问题,即。,姿态估计误差,我们大多可以通过置信度来预测姿态估计的质量(例子如图5所示)。在高估计置信度的情况下,我们可以预测生成的PoseBox的良好质量。但当人体某些部位的姿态估计置信度得分较低时,可以认为所构建的PoseBox质量较差。对于第二个问题,可以通过重新引入原始图像来弥补缺失的视觉线索,从而使深层网络捕捉到有区别的细节。
Network.
基于上述考虑,本文提出了一种以原始图像、PoseBox和置信向量为输入的三流PoseBox融合(PBF)网络(见图6)。对于AlexNet[19]和ResNet-50[15],原图像和PoseBox大小调整为256×256(然后随机裁剪为227×227),对于ResNet-50[15],大小为224×224。第三个输入,即,位姿估计置信度得分是一个14-dim向量,其中每个条目都在[0,1]范围内。
两个图像输入被馈送到两个相同结构的cnn。由于原始图像及其PoseBox的内容不同,两个卷积层的流并不共享权值,尽管它们是从相同的种子模型初始化的。FC6和FC7层连接到这些卷积层。对于置信向量,我们添加了一个小的FC层,它将14-dim的向量投射到14-dim的FC向量上。我们将三个输入连接到FC7层,该层与FC8完全连接。三个软最大损耗的总和用于损耗计算。当使用ResNet-50[15]代替AlexNet时,图6没有FC6层,FC7和FC8层分别称为Pool5和FC。
在图6中,由绿色边框表示,位形不变嵌入(PIE)可以是连接的FC7**(4,096+4,096+14 = 8,206-dim),也可以是它的下一个全连接层(分别为751-dim和1,160-dim for Market-1501和CUHK03)。对于AlexNet,我们将两个PIE描述符分别表示为PIE(A, FC7)和PIE(A, FC8);对于ResNet-50,它们分别称为PIE(R, Pool5)和PIE(R, FC)。
在训练过程中,将批量输入的三胞胎(原图像、其PoseBox和置信向量)输入到PBF中,并将这三个损失的总和反向传播到卷积层。ImageNet预训练模型初始化原始图像和PoseBox流。
在测试期间,给定图像的三个输入,我们提取PIE作为描述符。注意,我们将ReLU应用于提取的嵌入物上,根据我们的初步实验,结果非常好。然后利用欧氏距离计算探测器图像与画廊图像之间的相似度,得到排序后的排序列表。
PBF有三个优点。首先,信心向量是PoseBox是否可靠的指标。这提高了作为静态嵌入网络的PBF的学习能力,使得PoseBox与原始图像之间可以进行全局权衡。Second, 原始 图像 不仅 允许 回 退 机制 时 姿势 估计 fails, 还 通过 行人 PoseBox 施工 期间 可能 会 丢失 细节 但是 是 有用 的 在 discriminating identities.第三,邮筒为原始图像提供了重要的补充线索。使用正确预测的关节,行人匹配可以更准确的与良好对齐的图像。这样可以减少检测误差和位姿变化的影响。
。。。
。。
。
。
5. Conclusion
本文明确提出了人的再识别过程中行人的错位问题。我们提出位姿不变量嵌入器(PIE)作为行人描述符。我们首先用卷积位姿机[34]检测到的16个关节构建PoseBox。PoseBox帮助纠正由摄像机视角、人员移动和检测器错误引起的姿态变化,并支持良好对齐的行人匹配。通过PBF(PoseBoxFuse network)F网络,将原始图像与姿态估计的置信度和姿态估计的置信度进行融合,从而实现了PIE的学习。该算法减少了姿态估计误差和细节损失的影响。我们证明,PoseBox在单独使用时产生了相当的准确性,而PIE与最先进的技术相比产生了具有竞争力的准确性。