【论文理解】Where to Buy It: Matching Street Clothing Photos in Online Shops
本博记录为卤煮理解,如有疏漏,请指正。转载请注明出处。
卤煮:非文艺小燕儿
这是ICCV2015的一篇论文。
先上官方项目连接http://www.tamaraberg.com/street2shop/
包含paper,poster,和dataset。
这篇论文的目标就是要根据街拍图准确找出卖家图。理想很丰满,结果一把辛酸泪。
该论文的主要贡献有:
1. 做了一个street2shop数据集,并且开源了;
2. 根据深度学习提取到的服装特征,又训练了一个计算相似度的小网络;
3. 不仅用算法检索评估测试,还组织了人类检索评估测试;
A. 数据集street2shop
总共收集了11类商品的图片,包含(bags,belts,dresses,eyewear,footwear,hats,leggings,outerwear,pants,skirts,和tops);
从25个网上零售店收集了404,683张shop photos,和20,358street photos, 39,479对street shop matches;
开源出来的给的是图片的URL,下图,数字表示的是图片的编号,后面跟着的是图片的网址
还有对应的json文件,分为retrieval_**.json, test_pairs_**.json, train_pairs_**.json, 如下图
test_pairs_**.json, train_pairs_**.json中描述图片的一些信息,photo对应上图中图片的编号,product是图片对应的item序号,也就是款式(注意不同类型的商品款式序号存在重复),bbox是指服装框,包含左上角坐标以及长宽信息。如下
retrieval_**.json中是这样的
根据给的图片url将dresses,outerwear,tops下载下来看了看,很不理想,很多item只有一张图片,有多张图片的item,服饰搭配,角度,光线遮挡等问题也很严重,有些甚至人都不好区分,下图选取的还是比较理想的
B. 算法模型
算法的输入的street photo就是一张标记好类别和bbox的照片, 而shop photo是没有类别和bbox标注的。
一个baseline是基于shop photo的整图做检索,也就是用了ImageNet效果还不错的模型作为特征提取器,提取shop的整图特征,提取street的bbox里图的特征,然后用cosine距离计算相似度,相似度从大到小排序,得检索结果。感觉这种方式脚趾头想效果也不能好了。。。
另一个baseline是采用selective search method在shop中提取候选框,特征计算和比对同baseline 1
后面本文提出的呢,就是用三个FC层的network来代替consine相似度的计算。
训练数据的positive pairs主要就是选取street和shop指向同一商品的图片里,shop图片上使用baseline2比对结果topN的区域图提取的特征与street bbox图提取的特征组成pair,negative pairs就是street和shop指向不同款的图片
先训练了一个适用于所有类别的通用相似度计算模型,然后针对不同类别,分别finetuning出各类别的相似度计算模型。
C. 实验结果
算法实验结果,实在是不怎么理想,参照下图
人类检索结果,任务与算法的稍有不同,给出一张图和10个比较相似的候选,从中选出与那张图相同的。不过做同样任务的时候,人的准确度还是比算法的高很多,还有很高的提升空间。
Consider dresses,where our algorithm does relatively well, picking the correct item in the top 10 in 33.5% of trials and getting the first item correct in 15.6%. In our human experiments, people pick the correct item out of 10 choices 87% of the time for
dresses, which is significantly better.
总结:
本来是想用一下他的数据集的,结果费了半天事把图片爬下来发现很不理想,然后怀疑自己的处理方式不对,去仔细看了看论文,感叹,怪不得论文结果也很差,数据不好,算法也不高明。不过当时2015年,也算是不错了吧。
继续探索吧。
打个广告:最近开始入坑服饰识别,即将入坑的和已经入坑的小伙伴可以添加QQ群交流:
AI服装检索分类
474700336