【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

本博记录为卤煮理解，如有疏漏，请指正。转载请注明出处。

卤煮：非文艺小燕儿

这是ICCV2015的一篇论文。

先上官方项目连接http://www.tamaraberg.com/street2shop/

包含paper，poster，和dataset。

这篇论文的目标就是要根据街拍图准确找出卖家图。理想很丰满，结果一把辛酸泪。

该论文的主要贡献有：

1. 做了一个street2shop数据集，并且开源了；

2. 根据深度学习提取到的服装特征，又训练了一个计算相似度的小网络；

3. 不仅用算法检索评估测试，还组织了人类检索评估测试；

A. 数据集street2shop

总共收集了11类商品的图片，包含（bags，belts，dresses，eyewear，footwear，hats，leggings，outerwear，pants，skirts，和tops）；

从25个网上零售店收集了404，683张shop photos，和20，358street photos， 39，479对street shop matches；

开源出来的给的是图片的URL，下图，数字表示的是图片的编号，后面跟着的是图片的网址

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

还有对应的json文件，分为retrieval_**.json, test_pairs_**.json, train_pairs_**.json, 如下图

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

test_pairs_**.json, train_pairs_**.json中描述图片的一些信息，photo对应上图中图片的编号，product是图片对应的item序号，也就是款式（注意不同类型的商品款式序号存在重复），bbox是指服装框，包含左上角坐标以及长宽信息。如下

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

retrieval_**.json中是这样的

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

根据给的图片url将dresses，outerwear，tops下载下来看了看，很不理想，很多item只有一张图片，有多张图片的item，服饰搭配，角度，光线遮挡等问题也很严重，有些甚至人都不好区分，下图选取的还是比较理想的

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

B. 算法模型

算法的输入的street photo就是一张标记好类别和bbox的照片，而shop photo是没有类别和bbox标注的。

一个baseline是基于shop photo的整图做检索，也就是用了ImageNet效果还不错的模型作为特征提取器，提取shop的整图特征，提取street的bbox里图的特征，然后用cosine距离计算相似度，相似度从大到小排序，得检索结果。感觉这种方式脚趾头想效果也不能好了。。。

另一个baseline是采用selective search method在shop中提取候选框，特征计算和比对同baseline 1

后面本文提出的呢，就是用三个FC层的network来代替consine相似度的计算。

训练数据的positive pairs主要就是选取street和shop指向同一商品的图片里，shop图片上使用baseline2比对结果topN的区域图提取的特征与street bbox图提取的特征组成pair，negative pairs就是street和shop指向不同款的图片

先训练了一个适用于所有类别的通用相似度计算模型，然后针对不同类别，分别finetuning出各类别的相似度计算模型。

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

C. 实验结果

算法实验结果，实在是不怎么理想，参照下图

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

人类检索结果，任务与算法的稍有不同，给出一张图和10个比较相似的候选，从中选出与那张图相同的。不过做同样任务的时候，人的准确度还是比算法的高很多，还有很高的提升空间。

Consider dresses,where our algorithm does relatively well, picking the correct item in the top 10 in 33.5% of trials and getting the first item correct in 15.6%. In our human experiments, people pick the correct item out of 10 choices 87% of the time for dresses, which is significantly better.

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

总结：

本来是想用一下他的数据集的，结果费了半天事把图片爬下来发现很不理想，然后怀疑自己的处理方式不对，去仔细看了看论文，感叹，怪不得论文结果也很差，数据不好，算法也不高明。不过当时2015年，也算是不错了吧。

继续探索吧。

打个广告：最近开始入坑服饰识别，即将入坑的和已经入坑的小伙伴可以添加QQ群交流：

群名称：AI服装检索分类

群号：474700336

【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops

相关推荐