重要的相关论文及时间

1. DDAN：DeepDomain Adaptation for Describing People Based on Fine-Grained ClothingAttributes

2. DARN：Cross-domainImage Retrieval with a Dual Attribute-aware Ranking Network

3. FashionNet：DeepFashion: Powering Robust Clothes Recognition and Retrieval withRich Annotations

4. MTCT：Multi-TaskCurriculum Transfer Deep Learning of Clothing Attributes

5. VAM：ClothingRetrieval with Visual Attention Model

发展历程图-short history

最近几年的衣物检索的网络架构发展历史

要解决的问题的总结：

数据集

标注中是否有landmark，对细粒度特征的位置由指示意义的标记

Online/offline clothing跨域数据集的处理——a）背景差异大；b）标注信息不同

网络结构：

1. 多任务处理的手段

2. 目标检测的手段

3. 跨域的特征差异处理方法

评价：

DDAN和DARN

它们都是IBM和National University of Singapore联合发布的论文，使用的相同的数据集，也是要解决相同的问题，但是使用了不同的网络架构。

这两个网络都是要着重处理跨域的数据差异问题，DDAN是两个分支，分支中的特征层进行差异比较，使用的是自定义alignment cost loss；DARN也是两分支，着重是看重最后所得的特征集的差异，使用triplet loss，相比于DDAN，它使用了image pair，同衣服的不同域的图片。

多任务处理是多类别分类的方式。

在这些网络头上，需要添加衣物检索的网络，如RCNN。

这两篇基础网络的一个共同点是使用NIN的CONV，图片尺寸下降不太大

FashionNet

使用landmark对多任务分类进行指示，是不用添加额外的衣物检索的网络。

也使用了triplet loss，处理image pairs，但不是双网络结构，而是单支线，pairs放入到batch组合起来计算tripletloss，实现对跨域的处理能力。

类别属性使用交叉熵计算loss

MTCT

需要使用faster-rcnn来首先检索到人体或者衣物，然后将这部分裁剪出来送入到MTCT中去。

细粒度的属性是通过多分支，分别构建各分支的FC，然后使用softmax。这一点是作者骄傲的，他认为如DDAN和DARN的结构先有总的FC特征向量，然后再分分支，既计算量大，又会丢失表达空间。

双域的处理是通过将基础网络复制为三份，分别对最后一层conv后的feature map计算tripletloss——t-STE（e t-distributionStochastic Triplet Embedding (t-STE) loss function）。实际操作和Fashion net一致。

VAM

不使用检索网络，是通过内嵌的FCN自动的识别想要的区域，attention机制。

这篇的目的是street2shop，用街拍衣服query电商，所以最后只给一个FC特征向量。但是loss也是使用tripletloss。

对于跨域的分析，也是使用正像对（positive pairs given by the dataset benchmark），然后随机选择负样本图片（negative samples）。

对网络设计的总结

跨域能力的训练，“像对”和“triplet“似乎就是标配了，至少说明这个控制精度方面表现很好，并且可以主动的设置lossmargin来增强区分能力。

多属性分类，由网络最终生成的FC特征向量，用于多任务分类。其实这部分认为可控性比较差，只能寄希望于通过多FC堆叠提高分支网络的表达能力。

检索，无论是内嵌，还是单独列为一个阶段，总是不可避免的。