Camera Style Adaptation for Person Re-identification-学习笔记

一、摘要

        如果可以在训练集中增加更多样本来了解摄像机之间的风格差异,就能够解决个人身份识别中的数据稀缺问题,并学习不同摄像机之间的不变特征。本文使用cycleGAN完成镜头间图片转换,损失函数使用cycleGAN loss 和 identify mapping loss。增加数据多样性以防止过度拟合,但是也会产生相当程度的噪声。为了缓解这个问题,在改进后的版本中,进一步在样式转移样本上应用标签平滑正则化(LSR),以便他们的标签在训练期间柔和地分布。

二、算法模型

Camera Style Adaptation for Person Re-identification-学习笔记

1. CycleGAN

        给定两个不同领域的数据集A和B,CycleGAN的目标是学习从A到B的映射。CycleGAN包含两个映射G: A -> B 和 F : B->A。其损失函数可以概述为:

Camera Style Adaptation for Person Re-identification-学习笔记

2. Camera-aware Image-Image Translation

        为使得style transfer保持输入和输出之间的颜色一致性,在常规CycleGAN的损失函数中加入identity mapping loss,即身份映射损失:

Camera Style Adaptation for Person Re-identification-学习笔记

3. Baseline Deep Re-ID Model 

        鉴于真实的和假的(风格转移的)图像都有ID标签,我们使用ID-discriminative embedding(IDE)来作为重识别的CNN模型。 使用Softmax损失,IDE将重识别训练视为图像分类任务。在实现中,所有输入图像都调整为256×128。使用ResNet-50 作为主干,并在ImageNet预训练模型进行微调。 放弃最后的1000维分类层并添加两个完全连接的层。第一个FC层的输出有1024个维度,命名为“FC-1024”,然后是BN,ReLU和Dropout。 第二个FC层的输出是C维的,其中C是训练集类的数量。

 

4. Training with CamStyle

        普通版本:新训练集中的每个样本属于单个人。 在训练期间,在每个小批量中,我们随机选择M个真实图像和N个假图像。 损失函数可以写成:

Camera Style Adaptation for Person Re-identification-学习笔记

        交叉熵(定义损失):

Camera Style Adaptation for Person Re-identification-学习笔记

        其中p(c)为预测的分布,q(c)为ground-truth分布:

Camera Style Adaptation for Person Re-identification-学习笔记

        所以,转化为最大化groud-truth label的预测概率:

Camera Style Adaptation for Person Re-identification-学习笔记

改进版本:在fake images中加入正则化,label smoothing regularization (LSR),柔和化one-hotlabel分布:

Camera Style Adaptation for Person Re-identification-学习笔记

        因此,重新定义损失:

Camera Style Adaptation for Person Re-identification-学习笔记

        该阈值一般设置为0.1

三、实验结果

Camera Style Adaptation for Person Re-identification-学习笔记

实验Market-1501和DukeMMC-reID数据集显示可以减少过度贴合的影响,并且当与LSR结合时,会产生持续的改进。可作为其他数据增强技术的补充,将CamStyle扩展到视图学习和领域适应。

翻译:

   摘要:作为一个交叉相机检索任务,个人身份验证遭受不同相机造成的图像风格变化。艺术通过学习摄像机不变描述子空间来隐含地解决这个问题。在本文中,我们通过引入相机风格(CamStyle)适应明确地考虑了这一挑战。 CamStyle可以作为一种数据增强方法,平滑相机风格差异。具体来说,通过CycleGAN,标记的训练图像可以转移到每个摄像机,并与原始训练样本一起形成增强训练集。这种方法在增加数据多样性的同时也会产生相当大的噪音。为了减轻噪声的影响,采用标签平滑正则化(LSR)。我们的方法的vanilla版本(没有LSR)在经常发生溢出的少数相机系统上表现相当好。对于LSR,我们在所有系统中都表现出持续的改进,无论改写的程度如何。我们还报告与现有技术相比的竞争精度。

1.Introduction

个人识别(重新识别)[43]是跨镜头检索任务。给定一个查询感兴趣的人,它的目的是从多个摄像机收集的数据库中检索同一个人。在这项任务中,一个人的形象经常会在外观和背景上发生深刻的变化。通过不同的摄像头捕捉图像是造成这种变化的主要原因(图1)。通常,相机在分辨率,环境照明等方面各不相同。为了应对相变变化的挑战,文献的先前部分选择了隐式策略。也就是说,要学习不同相机下具有不变性的稳定特征表示。传统算法中的例子包括KISSME [16],XQDA [20],DNS [39]等。深度表示学习方法的例子包括IDE [43],SVDNet [29],TripletNet [11]等。与以前的方法相比,本文从照相机风格适应的角度出发,采取明确的策略。我们主要以深度学习为基础的个人身份识别需要大量数据。要学习对相机变化强大的丰富功能,注释大规模数据集很有用,但成本过高。尽管如此,如果我们可以模拟摄影机之间风格差异的训练样本,我们可以加入以下步骤:2)学习不同摄影机之间的不变特征。优选地,这个过程不应该停留在更多的人标签上,以致预算保持较低。

     基于以上讨论,我们提出了一种摄像头风格(CamStyle)适应方法来调整人员重新认证的CNN训练。在它的香草( vanilla )版本中,我们用CycleGAN [51]学习了每个摄像机对的图像翻译模型。通过学习CycleGAN模型,对于某个摄像头捕获的训练图像,我们可以生成其他摄像头样式的新训练样本。以这种方式,训练集合是原始训练图像和风格转移图像的组合。样式转换后的图像可以直接借用原始训练图像中的标签。在训练期间,我们使用[43]中的基线模型对训练集进行训练。香草法在减少和改善相机不变性方面是有益的,但重要的是,我们发现它也会给系统带来噪音(图2)。在相对丰富的数据具有较低覆盖风险的全相机系统中,这个问题会使其好处恶化。为了缓解这个问题,在改进后的版本中,我们在样式转移的样本上进一步应用标签平滑正则化(LSR)[30],以便在训练过程中他们的标签是柔和分布的。

    所提出的相机风格适应方法CamStyle具有三个优点。 首先,它可以被看作是一种数据高级化的方式,它不仅可以平滑相机风格差异,而且还可以减少CNN对配置的影响。 其次,通过整合相机信息,它可以帮助具有相机不变特性的人物描述符。 最后,它是无监督的,由CycleGAN保证,表明公平的应用潜力。 总之,本文有以下贡献:•用于重新识别数据增强的香草( vanilla )相机感知式样式传输模型。 在少数相机系统中,改进可能高达17.1%。 •在重新识别训练期间对样式转换样本应用LSR的改进方法。 在完全相机系统中,观察到一致的改进。

2.Related Work

深入学习的人重新认同。许多深入的学习方法[38,34,33,3,24]已经提出re-ID。在文献[38]中,输入图像对分别被划分为三个重叠的水平部分,并通过一个连体CNN模型来使用余弦距离来学习它们的相似性。后来,吴等人。 [34]通过使用较小的卷积滤波器来增加网络的深度以获得强大的特征。另外,Varior等人[33]将长期短期记忆(LSTM)模型合并到一个连续处理图像部分的连体网络中,以便记忆空间信息以增强深层特征的判别能力。另一个有效的策略是分类模型,它充分利用了再识别标签[43,35,29,18,36,44,41]。 Zhengetal。 [43]提出了ID识别嵌入(IDE)来训练重新识别模型作为图像分类,这是从ImageNet [17]预训练模型进行精细调整。 Wu等人[35]通过将手工特征合并到CNN特征中来提出特征融合网络(FFN)。最近,孙等人。 [29]用奇异向量分解迭代地优化全连接(FC)特征并产生正交权重。当CNN模型与训练样本的数量相比过于复杂时,可能会发生超载。为了解决这个问题,已经提出了几种数据增强和正则化方法。在[23]中,Niall等人利用背景和线性变换提高网络的泛化能力,生成各种样本。最近,钟等人。用随机值随机擦除输入图像中的矩形区域,从而防止模型超载,并使模型具有鲁棒性。 Zhuetal。 [50]从独立数据集中随机选取伪正态样本作为训练样本重新识别CNN以减少覆盖风险。郑等人更关注这项工作。 [47]使用DCGAN [25]生成未标记的样本,并将它们用统一的标签分配来规范网络。与[47]相反,这项工作中的样式转移样本是由相对可靠标签的真实数据生成的。

  生成敌对网络。生成对抗网络(GANs)[9]近年来取得了令人瞩目的成功,特别是在图像生成[25]。最近,GAN还被应用于图像到图像的转换[13,51,22],样式转换[8,14,6]和跨域图像生成[2,31,5]。 Isola等人[13]应用条件GAN来学习从输入映射到输出映射的图像到图像转换应用程序的映射。 [13]的主要缺点是它需要成对的相应图像作为训练数据。为了克服这个问题,LiuandTuzel [22]提出了利用加权共享网络进行耦合生成的互补网络(CoGAN)。最近,CycleGAN [51]基于[13]中的“pix2pix”框架引入了循环一致性,以学习两个不同域之间的图像转换,而不需要配对样本。样式转换和跨域图像生成也可以被视为图像到图像的转换,其中输入图像的样式(或域)被转移到另一个,同时保留原始图像内容。在文献[8]中,通过分离和重组图像的内容和风格来引入风格转移方法。 Bousmalisetal。 [2]引入一个无监督的GAN框架,将源自图像的图像传输到目标图像的目标域。类似地,在[31]中,域转移网络(DTN)是通过在保留原有身份的同时并入多个类别的域来生成不需要域的域名。与以往主要考虑生成样本质量的方法不同,本文使用样式转移样本来提高重新生成样本的性能。

3.TheProposedMethod

在本节中,我们首先简要回顾3.1节中的CycleGAN[51]。 然后我们在第3.2节中使用CycleGAN描述摄像机数据生成过程。 LSR的基线和培训策略分别在第3.3节和第3.4节中描述。 总体框架如图3所示。

3.1CycleGAN回顾

给定两个数据集{xi}M i = 1且{yj} N j = 1,从两个不同的域A和B收集,其中xi∈A和yj∈B。CycleGAN的目标是学习映射函数G:A→B,使得G(A)的图像分布与使用对抗性损失的分布B无法区分。 CycleGAN包含两个映射函数G:A→B和F:B→A。两个敌对鉴别器DA和DB区分了纹理从另一个域转换的区别。 CycleGAN应用GAN框架来共同训练生成模型和判别模型。 整个CycleGAN损失函数表达为:

Camera Style Adaptation for Person Re-identification-学习笔记

其中VGAN(DB,G,A,B)和VGAN(DA,F,B,A)是映射函数G和F以及鉴别器DB和DA的损失函数。 Vcyc(G,F)是强制F(G(x))≈x和G(F(y))≈y的周期一致性损失,其中每个图像可以在循环映射后重建。 λ惩罚VGAN和Vcyc之间的重要性。有关CycleGAN的更多详细信息可以访问

3.2.Camera-awareImage-ImageTranslation

在这项工作中,我们使用CycleGAN生成新的训练样本:不同相机之间的样式被认为是不同的域。 Givenare-ID数据集包含从L个不同相机视图收集的图像,我们的方法是使用CycleGAN为每个相机对学习图像 - 图像平移模型。 为了鼓励样式转换来保持输入和输出之间的颜色一致性,我们在CycleGAN损失函数(方程1)中添加了标识映射损失[51],以强制生成器在使用目标域的重复图像作为输入近似生成身份。 身份映射损失可以表示为:

Camera Style Adaptation for Person Re-identification-学习笔记

具体而言,对于训练图像,我们使用CycleGAN为每对摄像机训练相机感知式传输模型。在[51]中的训练策略之后,所有图像被分割为256×256。我们使用与CycleGAN相同的体系结构来支持我们的相机感知式传输网络。发生器包含9个残余块和四个卷积,而鉴别器是70×70 PatchGANs [13]。使用学习的CycleGAN模型,对于从某个相机收集的训练图像,我们生成L - 1个新样本,其样式与相应的相机相似(示例如图2所示)。在本作品中,我们调用所生成的图像样式转换图像或假图像。以这种方式,训练集被增强为原始图像和风格转移图像的组合。由于每个样式转移的图像保留其原始图像的内容,所以新样本被认为与原始图像具有相同的标识。这使我们能够利用样式传输的图像以及相关的标签样本 - IDCNNin以及原始训练样本。

讨论。 如图4所示,所提出的数据增强方法的工作机制主要在于:1)真实和伪造(风格转移)图像之间的相似数据分布,以及

2)保留伪造图像的ID标签。 在第一个方面,假图像弥补了真实数据点之间的差距,并在特征空间中稍微扩大了类边界。 这保证了增强数据集通常支持在嵌入学习期间更好地表征类分布。另一方面,第二个方面支持监督学习[43]的使用,这是一种与[47]不同的机制,它利用未标记的GAN图像进行正则化。

3.3.BaselineDeepRe-IDModel

鉴于真实的和伪造的(风格转移的)图像都有ID标签,我们使用ID识别嵌入(IDE)[43]来训练re-ID CNN模型。 使用Softmax损失,IDE将重新识别培训视为图像分类任务。 我们使用ResNet-50 [10]作为主干,并按照[43]中的训练策略对ImageNet [4]预训练模型进行微调。 与IDE专业版不同

在[43]中提出,我们丢弃最后的1000维分类层并添加两个全连接(FC)层。 第一个FC层的输出有1024个维度,命名为“FC-1024”,然后是批量归一化[12],ReLU和Dropout[27]。 增加“FC-1024”遵循[29]中的做法,可以提高精确度。第二个FClayer的输出是C维的,其中C是训练集中类的数量。 在我们的实现中,所有输入图像都调整为256×128。该网络如图3所示。

3.4.TrainingwithCamStyle

假设由真实和伪造(风格转移)图像(带有它们的ID标签)组成的新训练集,本节讨论使用CamStyle的训练策略。 当我们平等地看待真实和虚假的图像时,即给他们分配一个“单热”标签分布时,我们获得了我们方法的一个香草版本。 另一方面,当考虑伪造样本引入的噪声时,我们引入包含标签平滑正则化(LSR)[30]的完整版本。

 vanilla版。 在vanilla版本中,新训练集中的每个样本属于单个身份。 在训练期间,我们随机选择M个真实图像和N个假图像。 损失函数可以写成,

Camera Style Adaptation for Person Re-identification-学习笔记

其中LR和LF分别是真实图像和假图像的交叉熵损失。交叉熵损失函数可以表示为,

Camera Style Adaptation for Person Re-identification-学习笔记

其中C是类的数量,而p(c)是标准中输入的预测概率。 p(c)由softmax层归一化,所以

Camera Style Adaptation for Person Re-identification-学习笔记

q(c)是地面实况分布。由于训练集中的每个人都属于单一身份y,因此q(c)可以定义为,

Camera Style Adaptation for Person Re-identification-学习笔记

因此,最小化交叉熵相当于最大化地面实况标签的概率。 对于一个给定的身份为y的人,方程 4可以改写为

Camera Style Adaptation for Person Re-identification-学习笔记

由于真实数据和虚假数据之间的整体数据分布相似,因此在第4节中将会展示,在一个带有少数摄像机的系统中,vanilla版本能够提高基线IDE准确度。

完整版    样式转换后的图像具有正面的数据增强效果,但也会给系统带来噪音。因此,尽管在少数摄像机系统下,由于缺乏数据,倾向于发生过度拍摄,但在更多摄像机下,它的有效性受到影响,而香草型摄影机在降低数码相机系统性能方面表现出色。原因是,当有更多摄像机的数据可用时,过度配合问题不那么重要,并且传输噪声的问题开始出现。传递噪音源于两个原因。 1)CycleGAN不能完美地模拟传输过程,因此在图像生成期间发生错误。 2)由于遮挡和检测错误,实际数据中存在噪声样本,将这些噪声样本转换为假数据可能产生更多噪声样本。在图4中,我们将二维空间中真实和虚假数据的深层特征的一些例子可视化。大部分生成的样本都分布在原始图像周围。当传输错误发生时(见图4(c)和图4(d)),假样本将是一个噪声样本,并且与真实分布相距很远。当真实图像是真实图像(参见图4(b)和图4(d))时,它与标签相同的图像相距很远,因此其生成的样本也会很嘈杂。这个问题减少了全摄像系统下生成的样本的好处,其中相对丰富的数据具有较低的覆盖风险。为了缓解这个问题,我们将标签平滑正则化(LSR)[30]应用于样式传输的图像,以轻柔地分发他们的标签。也就是说,我们对ground-truth标签的信任度较低,并为其他类别分配较小的权重。每个风格转移图像的标签分布的重新分配被写为,

Camera Style Adaptation for Person Re-identification-学习笔记

E∈[0,1]当 E= 0,等式7可以简化为公式5。然后,然后,将式(4)中的交叉熵损失重新定义为

        对于真实图像,我们不使用LSR,因为它们的标签与图像内容正确匹配。此外,我们通过实验证明,在真实图像中添加LSR并不能提高全摄像系统下的重新识别性能(参见第4.4节)。所以对于真实的图像,我们使用单热标签分发。对于风格转移的图像,我们设置? = 0.1,损失函数LF = LLSR(β= 0.1)。讨论。最近,郑等人。 [47]提出离群值的标签平滑正则化(LSRO)以使用DCGAN生成的未标记样本[25]。在[47]中,由于所生成的图像没有标签,所以对生成的样本分配均匀的标签分布,即LLSR(α= 1)。与LSRO[47]相比,我们的系统有两个区别。 1)假照片根据照相机样式生成。 CycleGAN的使用确保了生成的图像仍然是人的主要特征(图5提供了一些视觉比较)。 2)我们的系统中的标签更可靠。我们使用LSR来处理一小部分不可靠的数据,而LSRO [47]用于没有可用标签的情况下。

补充:

LSR--就是为了缓解由label不够soft而容易导致过拟合的问题,使模型对预测less confident。LSR的方法原理:

假设q(y|x)表示label y的真实分布;u(y)表示一个关于label y,且独立于观测样本x(与x无关)的固定且已知的分布,通过下面公式(1)重写label y的分布q(y|x):

q’(y|x)=(1 - e)* q(y|x)+ e * u(y) (1)

其中,e属于[0,1]。把label y的真实分布q(y|x)与固定的分布u(y)按照1-e和e的权重混合在一起,构成一个新的分布。这相当于对labely中加入噪声,y值有e的概率来自于分布u(k)。为方便计算,u(y)一般服从简单的均匀分布,则u(y)=1/K,K表示模型预测类别数目。因此,公式(1)表示成公式(2)所示:

q’(y|x)= (1 - e)* q(y|x) + e / K (2)

注意,LSR可以防止模型把预测值过度集中在概率较大类别上,把一些概率分到其他概率较小类别上。

从交叉熵的角度,可以得到关于LSR的另一个解释。引入噪声分布u(k)之后,模型的交叉熵loss公式变为公式(3)所示。

H(q’,p)=-E(1...K)(log(p(k))*q’(k))=(1 - e)* H(q,p)+ e*H(u,p) (3)

其中,E(1...K)表示从1至K的累加求和。因此,LSR相当于采用两个losses,即H(q,p)和H(u,p)来代替原始单一的交叉熵损失函数H(q,p)。u(k)是往label中加入的、已知的先验分布,按照e / (1 - e)的概率来偏移(deviation)预测分布p。这种偏移(deviation)可以通过KL距离来获得,H(u,p)= D(KL)(u||p)+H(u),其中,H(u)是已知且固定的。当u服从均匀分布时,H(u,p)衡量预测分布p与均匀分布u的不相似程度。

不适用于DGA问题原因:在NLP中,数据不像图片处理时是连续的,可以微分,我们在优化生成器的过程中不能找到“中国 + 0.1”这样的东西代表什么,因此对于离散的数据,普通的GAN是无法work的。所以就像上次那篇中提到生成的域名类似于ffffffff.com 、cccgggqq.kia、 gggggqqq.na 、iiiiiiii.net等简单重复的域名,效果并不好。本文中提到的cycleGAN是为了补充数据不足而提出的,对DGA生成没有帮助。

可以试着用SeqGAN和leakGAN(SeqGAN升级版)专门做自然语言处理的。