GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval 论文阅读笔记
[cs.CV] 13 Sep 2017
GLAD:全局-局部-对齐的行人重识别表征
论文链接: https://arxiv.org/abs/1709.04329.
1 摘要
行人姿态和行人的不对齐问题大大增加了重识别的难度,于是作者提出了Gloabl-Local-Alignment Descriptor(GLAD)和一个有效的索引和检索框架。
Indexing and Retrieval Framework:
设计了分级索引和检索框架,消除了图库集中的冗余,加快了在线重新标识过程。(不同于query 和gallery进行距离比较,先分组,然后再rank)
2 理论研究
2.1 GLAD
1、一个全局和三个局部,维度都是1024d,三个局部通过deepercut建立关键点进行定位检测。(详见论文4.1)
2、GoogLenet由inception模块构成,最后的全连接层(FC)利用两个卷积层代替,图中蓝色和红色卷积块,
we call the first convolutional layer as feature layer because it is used for feature
extraction.
The latter convolutional layer directly produces C feature maps corresponding to C classes in the training set. Therefore, we call those feature maps as confdence maps, which essentially show the classifcation confidences.
3、根据置信图,利用GAP生成每一个分类的得分。(置信映射是新图像上的概率密度函数,为新图像的每个像素分配一个概率,即像素颜色出现在前一图像中目标的概率。)
4、Following GAP, softmax loss function is used to compute the network loss.
2.2 Retrieval Framework
**把相似的图片进行相似性分组,将这些样本精细地组合在一起,从而减少了数据冗余,提高了在线检索效率。对于在Gallery里的每一个人,生成的组包含了容易识别和不容易识别的样本(相似的同ID和相似的不同ID),因此,需要设计有效的分组算法。
**Two-fold Divisive Clustering 二重分裂聚类(TDC) is a greedy strategy that divides images in galley into groups and ensures samples in each group share strong similarity with each other.
For TDC, the group dissimilarity degree measurement is defned as(相异度):****
相异度是TDC分组的一个依据,给出一个阈值θ,通过比较,让一个组的图片最为相似。
分完组之后,得到分组的特征表征:
如图所示:
首先,利用TDC进行分组;得到分组的4096维特征。
然后,利用probe图像的GLAD特征先进行PCA从4096d降维到128d,粗检索得到to-K组。(128粗糙)
最后,利用精检索在top-k(K=100)进行图片检索。完成了分级检索过程。(4096精细 粗细两级)
3 实验总结
sharing parameters during training substantially boosts the performance of learned descriptors.This might be because, the shared convolution kernels are forced to learn both global and local cues, thus are trained with more samples and could better avoid overftting.