读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)
Clothing Retrieval with Visual Attention Model(2017.10.31)
创新点
VAM不需要强监督训练信息的landmark;
提出了Impdrop方法,是将Dropout应用于feature层面
困难:
同样是双域问题
Landmark所对应的多属性的细粒度标注信息的 处理方式。
相关研究
1. Wh方法是为了学习不同域的相似度度量《Where to buy it: Matching street clothing photos in online shops (2015)》
2. 部分参数共享方法parameterpartial-sharing method 是处理不同域的影像是共享部分参数《A parameter partial-sharing cnn architecture for cross-domain clothing retrieval(2016)》。
处理图像中的扰动信息
按顺序->
1. 之前的数据增广data augmentation方法有利于神经网络的训练;
2. 但是数据本身的扰动信息,如相同物体的背景或者遮挡,处理手段目前有限,
3. 作者认为使用事先标注的位置框,可以直接让网络“看到”目标,算是一种处理这种信息扰动形式的方式,具体的是指FashionNet在识别衣服的不同款式时,使用人工标注的landmark指示出了诸如领子/袖子等部位。
4. 作者给出的方法就是attention architecture——让神经网络自动学习一种可寻找目标的attention机制。
具体的实现(attention机制)
1. 首先,训练一个FCN网络,得到attention maps。
2. 然后,attention map和中间结果组合,得到特征向量,用来检索衣物。其中,组合的实施方式是Impdrop connection结构,消除了背景。
3. 最后,由此所得到的loss,既训练主网络又训练VAM
1. 图片同时输入到两个分支里面,具体按照图片中说明的方式得出相应的结果。
2. 其中,feature maps/attention map和attention feature maps有相同的宽高,除attention map外,剩余两个有相同的channel。这儿和DropOut没太多关系,也没有借鉴关系,其实就是简单相称。
3. Upper layers A/B有相同的网络结构和网络参数。
至于为嘛FCN不和原图片组合(就是抠出来):
1. 图片尺寸,FCN的输出尺寸小于原图。
2. 与原图组合的话,产生额外的假边缘。
3. 产生当前中间层的feature map在上面所说的假边缘的地方,感受野是会跨过这条边缘线的。
为嘛叫Impdrop
1. Attention map和Feature maps组合,将重要的部分抠出来,就是使用点乘的方式。