最近几年的衣物检索的网络架构发展历史
重要的相关论文及时间
1. DDAN:DeepDomain Adaptation for Describing People Based on Fine-Grained ClothingAttributes
2. DARN:Cross-domainImage Retrieval with a Dual Attribute-aware Ranking Network
3. FashionNet:DeepFashion: Powering Robust Clothes Recognition and Retrieval withRich Annotations
4. MTCT:Multi-TaskCurriculum Transfer Deep Learning of Clothing Attributes
5. VAM:ClothingRetrieval with Visual Attention Model
发展历程图-short history
要解决的问题的总结:
数据集
标注中是否有landmark,对细粒度特征的位置由指示意义的标记
Online/offline clothing跨域数据集的处理——a)背景差异大;b)标注信息不同
网络结构:
1. 多任务处理的手段
2. 目标检测的手段
3. 跨域的特征差异处理方法
评价:
DDAN和DARN
- 它们都是IBM和National University of Singapore联合发布的论文,使用的相同的数据集,也是要解决相同的问题,但是使用了不同的网络架构。
- 这两个网络都是要着重处理跨域的数据差异问题,DDAN是两个分支,分支中的特征层进行差异比较,使用的是自定义alignment cost loss;DARN也是两分支,着重是看重最后所得的特征集的差异,使用triplet loss,相比于DDAN,它使用了image pair,同衣服的不同域的图片。
- 多任务处理是多类别分类的方式。
- 在这些网络头上,需要添加衣物检索的网络,如RCNN。
- 这两篇基础网络的一个共同点是使用NIN的CONV,图片尺寸下降不太大
FashionNet
- 使用landmark对多任务分类进行指示,是不用添加额外的衣物检索的网络。
- 也使用了triplet loss,处理image pairs,但不是双网络结构,而是单支线,pairs放入到batch组合起来计算tripletloss,实现对跨域的处理能力。
- 类别属性使用交叉熵计算loss
MTCT
- 需要使用faster-rcnn来首先检索到人体或者衣物,然后将这部分裁剪出来送入到MTCT中去。
- 细粒度的属性是通过多分支,分别构建各分支的FC,然后使用softmax。这一点是作者骄傲的,他认为如DDAN和DARN的结构先有总的FC特征向量,然后再分分支,既计算量大,又会丢失表达空间。
- 双域的处理是通过将基础网络复制为三份,分别对最后一层conv后的feature map计算tripletloss——t-STE(e t-distributionStochastic Triplet Embedding (t-STE) loss function)。实际操作和Fashion net一致。
VAM
- 不使用检索网络,是通过内嵌的FCN自动的识别想要的区域,attention机制。
- 这篇的目的是street2shop,用街拍衣服query电商,所以最后只给一个FC特征向量。但是loss也是使用tripletloss。
- 对于跨域的分析,也是使用正像对(positive pairs given by the dataset benchmark),然后随机选择负样本图片(negative samples)。
对网络设计的总结
- 跨域能力的训练,“像对”和“triplet“似乎就是标配了,至少说明这个控制精度方面表现很好,并且可以主动的设置lossmargin来增强区分能力。
- 多属性分类,由网络最终生成的FC特征向量,用于多任务分类。其实这部分认为可控性比较差,只能寄希望于通过多FC堆叠提高分支网络的表达能力。
- 检索,无论是内嵌,还是单独列为一个阶段,总是不可避免的。