论文笔记:Personalized Tag Recommendation for Images Using Deep Transfer Learning
感想
1 介绍
Tag recommendation被用于节省用户的时间,它会建议与上传内容相关的标签,这些建议偏向于用户的标签偏好和上传资源的内容。可是,在实践中,标签推荐系统经常仅基于用户的打标签历史,经常省略了上传物品的内容。
狭义的大众分类系统(narrow folksonomy systems)的一个缺点是物品的冷启动问题,狭义的大众分类系统允许一个或几个人对给定的资源提供标签,大多数上载到平台(例如Flickr)的图片,只有很少用户会打标签,例如只有图片的拥有者,以及拥有者授予权限的其它用户。因此,对于只基于用户偏好的个性化标签推荐模型,它会在提供有用的预测方面有很大的问题,特别是已经上传的图片,于是,这些模型经常会预测最流行的tags。
根据Van Zwol等人的研究,人们通常选择和内容和环境相关的词来标注图片,例如位置或者时间,图片的特征可用于解决冷启动问题,低级特征例如颜色直方图,经常用于个性化内容感知的标签推荐来克服这个问题。
2 贡献
这篇文章,我们提出了一个个性化标签推荐,它利用了多种深度学习技术,用于图片分类和目标检测的公共数据集来抽取强大的图片特征,这些图片特征和因子模型结合来提升预测性能。我们提出在著名的ImageNet上来训练卷积神经网络,他可以从我们的图片数据集上提取有用的特征。另外,我们正训练一个卷积神经网络来检测MS COCO数据集上的80个不同的物体。这两个任务和我们的任务不一样,并且使用不同的数据集。可是,结果表明我们可以从图片中提取有用的特征,这会帮助我们更好的做标签推荐。为了得到最终的推进,提取的视觉信息最终会用到因子分解机(factorization machines,FM)和成对的交互张量分解(pairwise interaction tensor factorization,PITF)。实验使用的是真实世界数据集NUS-WIDE,我们提取图片特征的方法使得标签推荐提升了至少1%。
我们的方法的动机的解释很容易,遵循人类如何标注图片的方式,
如上图,用户给这幅图片标注了“urban”,”motorcycle”, “downtown”。而COCO数据集仅使我们区分80种不同的物体,这和我们的任务完全无关,我们尽管检测到了person,motorbike, car和一些其它的物体。这也是人类会做的,看起来像motorbike的物体被打上了标签“motorcycle”。可是,目标检测也会推荐像“urban”的标签,这个标签很明显不是你图片上看到的物体,但是推荐系统可以学到无论何时motorbikes,cars和people在图片上检测到,这就是一个urban area或者city。相似的方式,分类算法可以提取图片特征,例如特定的形状,颜色等等。
3 问题定式化
标签的观察集合定义为:
基于图片推荐模型的得分函数y ̂(u,z_i,o_i |t)是计算给定postp_(u,i)的标签的得分,用来对标签排序,如果y ̂u,z_i,o_i,t_a比y ̂u,z_i,o_i,t_b的得分高,标签t_a与postp_(u,i)比t_b更相关。
内容感知的标签推荐模型期望提供一个top-K标签列表T ̂_(u,i),它是按照postp_(u,i)的标签分数的倒序排列。
4. 结构
图片特征和历史标签指派被送进一个自适应的分解模型,来计算标签分数。
4.1 视觉特征提取
我们没有用反向传播来训练所有网络的权重,也没有花费大量的时间来学习这些参数,我们使用的是预训练的CNN,它在大型数据集上训练的,例如ImageNet,这种手法非常普遍。之后,卷积层的参数就固定住了,作为一个给定的特征提取层。
CNN结构中在图片分类最好的模型之一为VGG模型,其结构包括,在5个序列块上有多个卷积层,在这些blocks之间有一些可选的池化层。预测器块包含一些全连接层,用来预测不同标签的概率。其结构图如下:
4.2 目标检测
网络由多个卷积层组成,大多数卷积层有3*3的滤波器,经过每次池化后,特征图的数量成倍增加。
我们提出的结构是使用检测目标的概率值作为特征。如果一个目标被检测了很多次,我们使用目标的最大概率。方框的信息在模型中没有用,在提取过程中被忽略了。我们在COCO数据集上训练YOLOv2。之后,网络用于标签推荐中图片的物体表示。网络的输出是一个稀疏的向量表示,用于检测80个类别的概率。其表示如下:
4.3 分解(Factorization)模型
相似地,PITF预测模型简化为
其中模型的参数用V^U∈R^(|U|*k), V^I∈R^(|I|*k)和V^(T^U )∈R^(|T|*k)和V^(T^I )∈R^(|T|*k)表示。
模型明显是基于不同元素之间的关系,使用所有元素的索引作为他们的输入。我们不能直接把这些模型应用到内容感知推荐,其输入包含图片的信息,表示在特征向量中。
4.4 图片感知的标签推荐的分解模型
基于输入的描述,我们提出了不同基于FM和PITF的分解模型,用来产生得分函数。
如果两种类型的特征用于预测相关的标签,得分函数被定义为:
基于FM的公式为:
取决于基于图片特征的类型和得分函数,模型的命名也不一样。详细地,FM-OD和PITF-OD只使用目标检测特征,而FM-IC和PITF-IC是用图片分类提取的特征。FM-ID-OD和PITF-IC-OD使用所有基于图片的特征。
4.5 优化
关于四元组(u,i,t^+,t^-),BPR使用SGD;例如,对于每个(u,i,t^-)∈S_train和p_(u,i)的未观察的标签,从t^-上随机取的。计算其损失,用于更新模型的参数
5 评估
5.1 数据集
我们在公共数据集NUS-WIDE的子集来做实验,包含269 648张图片。我们对第一个子集合进行预处理,保留打上100个最流行的标签的图片,采样了1 000个用户,把它们分为10个数据集,涉及用户和标签,其中每个用户或者标签出现至少10个posts。随后,我们用户给50%的标签打上的标签,以避免用户把所有它们的图片打上相同的单词。
相似的方式,首先,通过映射到WordNet的方式来过滤掉tags,只有English tags保留了下来,并且移除了用户给50%的图片标注的标签。
我们使用leave-one-post-out的方式了分割我们的训练和测试集,对于NUS-WIDE-1, 2 的每一个用户,随意选择posts,然后把它放入测试集。相似地,采样每个用户的20%的NUS-WIDE-2 posts,并且放入测试集合。
5.2 实验设置
提取的视觉特征结合在512维的向量中,而给定图片的目标识别的概率附加成了80维的向量。
两个分解结构的因子维度固定为128,这篇文章的评价尺度是top- K标签的F1-measure,其中K的范围是1到10.
最佳学习率α在{0.01,0.001,0.0001}上寻找,最佳的L2-正则λ在{0.00 001, 0.000 001, 0.0 000 001}上寻找。FM-IC-OD和PITF-IC-OD模型和下面的个性化标签推荐方法进行了比较,这些方法只基于用户偏好:PITF和FM。
另外,这些模型也和使用视觉特征或者目标检测特征的分解模型进行了比较:FM-OD,PITF-OD,FM-IC和PITF-IC。
5.3 结果
如上图4和图5,个性化模型FM和PITF表现最差,它们没有考虑内容信息,仅仅依赖于用户偏好和它们捕捉有其它元素的新图片间的交互不是高效的。在NUS数据集中,大多数在测试集合的图片未出现在训练集中,他们的潜在参数不是学到的。
图片特征提升了预测的质量,在这些图上明显的显现了出来。这些特征使得性能从1%到3%。目标检测特征和其它特征相比不怎么有效,而结合了基于图片的特征帮助有效的提升了精度。因为在这个数据集上最流行的标签和颜色相关,例如blue和green。目标检测不能捕捉到这些信息,模型使用他们会损失这些标签。
否则,视觉特征捕获了图片上更多的唯一的特征。因为这个原因,使用视觉特征模型的性能比只使用目标检测信息的模型更好。基于图片特征的结合被证明能够强有力的提升性能。他们可以捕获给定图片的一般的目标信息和唯一的视觉信息。因此这些特征比其他特征更丰富,FM-IC-OD和PITF-IC-OD模型的精度提供了最好的结果。
另外,大部分情况下,基于PITF的模型一般比基于FM的模型更好。根据他们他们交互的元素,他们分离标签的潜在特征。因此他们可以捕获不同的有代表性的标签并且把每次计算的交互分数结合到最终的分数。基于PITF和基于FM的方法的差别在模型使用视觉或者目标特征方面很明显,而模型使用两种特征几乎是一致的。
表3显示的是我们的模型可以捕获基于视觉的标签和对象标签,而其他仅仅依赖于一种类型的图片特征的不行。例如,在第三张图片中,FM-IC-OD给一个给定用户一个基于目标的标签,“bird”,基于视觉的标签,“black”。
参考文献
[1]. Personalized Tag Recommendation forImages Using Deep Transfer Learning. http://ecmlpkdd2017.ijs.si/papers/paperID229.pdf