SIGIR 2019 | 为什么你的毛衣显胖又显黑?这个算法给你答案
引言
服装搭配是人们日常生活中不可缺少的重要部分,但并不是所有人都擅长服装搭配。如下图所示,一些缺少审美感知的人经常会困扰于以下三个问题:1)互补服装(上衣、下衣)之间兼容与否;2)导致互补服装不兼容的因素是什么;3)可供选择的替换服装有哪些。
事实上,近年来有许多研究工作已经围绕服装搭配和服装推荐展开。现有的研究工作主要是应用深度神经网络对服装图像或文本描述进行特征提取,进而对互补服装的兼容性进行建模。然而由于深度神经网络的可解释性较差,现有的技术大多只能判断互补服装之间的搭配与否,并不能综合解决服装搭配相关的三个关键问题。
为此,本文提出了一种基于属性模板引导的可解释服装搭配方法,通过将神经网络和矩阵分解相结合,全面解决互补服装的搭配与否,不和谐因素识别和替换服装的检索问题。
模型
为解决问题 2 和 3,作者希望通过学习一些潜在的基于属性的兼容搭配模板,来作为搭配参考,以解释不兼容搭配套装中的不和谐因素,即不和谐属性。为此,作者提出了一个基于属性模板引导的可解释服装搭配模型(PAICM)。模型的整体框架如下:
作者首先通过预训练的服装属性分类网络,得到服装的语义属性表示。基于获取的语义属性表示,作者通过多层感知机(MLP)建模互补服装的兼容性,以判断互补服装的兼容与否。同时作者使用非负矩阵分解(NMF),分别从搭配正例和负例套装中学习得到基于服装属性的兼容和不兼容搭配模板。
其中,兼容搭配模板可以作为参考来解释不兼容互补服装中的不和谐因素,并对该不和谐属性进行修改,进而检索可供替换的互补服装。为了促进服装兼容性建模和兼容搭配模板学习的效果,作者巧妙地利用贝叶斯个性化排序算法(BPR)将两者有机地联合起来。
接下来是对模型的具体介绍。
语义属性表示
由于现有公开的服装搭配数据集缺少对服装属性的标记,所以作者使用 DeepFashion 数据集中带有属性标记的 Consumer-to-shop Clothes Retrieval Benchmark 作为辅助数据集,并对每种服装属性都预训练了一个分类器。之后,作者将服装搭配数据集中的服装输入预训练好的属性分类器中,并对得到的各属性分类结果进行拼接,从而得到长度为 M 的向量作为服装的语义属性表示。
互补服装兼容性建模
为了判断互补服装兼容与否,作者将上衣和下衣的语义属性表示(和
)输入到用于寻找服装兼容性计算空间的 MLP,得到服装的隐含表示
和
,其中 t 和 b 分别表示上衣和下衣。基于这些隐含表示,模型定义上衣 i 和下衣 j 的兼容性得分如下:
作者期望正例套装中上衣 i 和下衣 j 的兼容性得分要高于负例套装中上衣 i 和下衣 k 的兼容性得分。因此,可得到套装之间的 BPR 损失函数如下:
搭配模板学习
物以类聚,人以群分。作者假设搭配的套装之间会共享一些兼容的属性模式(例如:{田园风、碎花、亚麻}),不搭配的套装之间也会具有一些潜在的不兼容的属性模式(例如:{男友风、OL、粉色})。因此,作者将搭配正例套装的语义属性拼接并组成搭配正例矩阵,并利用 NMF 来挖掘潜在的兼容搭配模板如下:
其中,P 是兼容搭配模板矩阵,它的每一列都是一个长度为 2M 兼容搭配模板,表示如下:
其中是兼容搭配模板的数量。
同样地,作者从搭配负例套装中分解出不兼容搭配模板矩阵 U。最终可以获得 NMF 损失函数如下:
对于分解得到的搭配模板,作者将其表示为上衣属性模板
和下衣属性模板
的级联,即
,并通过可以映射到服装兼容性计算空间的 MLP 得到上衣属性模板和下衣属性模板的隐含表示
和
。在此,我们定义搭配模板自身的兼容性
如下:
为了使互补服装的兼容性建模和搭配模板的学习相互促进,作者首先利用欧氏距离从搭配模板集合中分别找到与正例套装和负例套装最接近的兼容搭配模板和不兼容搭配模板
。作者期望该兼容搭配模板的兼容性得分
要高于该不兼容搭配模板的兼容性得分
,因此,可以得到潜在搭配模板之间的 BPR 损失函数如下:
综合上述的三个损失函数,可以得到模型的目标方程如下:
解释和建议
为了解释不兼容套装中不和谐属性,作者借助由上述模型学习得到的兼容搭配模板作为参考,找到不和谐属性,根据不和谐属性对不兼容套装的语义表示进行属性修改,并根据修改后的语义表示检索新的服装。如下图所示,首先,作者通过计算欧式距离,找到与不兼容套装最接近的兼容搭配模板
,并计算
和
每个属性表示的距离
,从而判断不兼容互补服装中的不和谐属性
,表示如下:
其中表示第 z 个属性的可能取值的个数。对于不兼容套装中的不和谐属性,作者根据兼容搭配模板的属性表示对其进行相应替换,从而得到新的套装的语义属性表示。基于此,利用欧氏距离,即可检索可用于替换的服装,从而全面完成服装搭配任务。
实验
互补服装兼容性建模性能实验
作者在 FashionVC 服装搭配数据集上测试了模型针对互补服装兼容性建模的效果。具体来说,作者采用多种互补服装兼容性判断模型作为基准方法,以 AUC 作为评价指标,具体结果如下:
实验结果证明了 PAICM 模型将服装的语义属性表示作为服装的表征,并结合潜在兼容/不兼容搭配模板的学习,可以在互补服装兼容性建模任务中取得相比现有方法更好的性能。
此外,由于潜在搭配模板的学习是模型的重要组成部分,作者探究了分解搭配模板的数量对互补服装兼容性建模性能的影响,其实验结果如下:
从图中可以看出,当分解搭配模板的数量为 40-90 时,互补服装兼容性建模性能相对较为稳定,同时也侧面反映出模型对分解搭配模板的数量并不十分敏感。
为了更直观地展示搭配模板,作者检索了与兼容/不兼容搭配模板最接近的兼容/不兼容套装,并根据每个搭配模板的语义语义表示,列举了潜在搭配模板中较为显著的属性特征如下:
从图中的套装可以看出,兼容/不兼容搭配模板内部分别包含了一些兼容/不兼容的属性模式。此外,作者发现每个兼容搭配模板包含的兼容属性特征确实可以作为一种参考,来解释不兼容套装中的不和谐属性。
兼容搭配模板属性修改性能实验
为了测试 NMF 在分解兼容/不兼容搭配模板方面的效果,作者将 NMF 与 K-means 算法进行了对比。其中,作者将 K-means 算法得到的聚类中心作为其“潜在搭配模板”。然后,作者利用这些搭配模板对不兼容搭配套装的不和谐属性进行修改替换,并计算属性修改后的不兼容搭配套装的兼容性得分。作者采用测试集中不兼容搭配套装经属性修改后兼容性得到提高的样本比例作为评价指标,两种算法的对比结果如下:
从图中可以看出,在分解出相同数量搭配模板的情况下,基于 NMF 的属性修改在提高不兼容套装兼容性方面优于 K-means 算法。
为了直观地展示 NMF 分解得到的兼容搭配模板的属性修改能力,作者也列举了部分属性修改的实例如下:
对比上图中原始的不兼容套装和修改属性后的套装,我们确实可以看到修改属性后的套装兼容性得到提高,而且修改后的套装与原始套装的总体风格基本保持一致。因此这种属性的修改相对容易被人们所接受。
综合上述的实验结果,我们可以看出本文所提模型不仅在互补服装兼容性建模上有较好的性能,而且能够综合地完成互补服装之间兼容与否、导致不兼容的属性是什么、有哪些可供选择的服装等三个服装搭配领域中的关键问题。
总结
作者提出了一种基于属性模板引导的可解释服装搭配方法。该方法不仅能够建模互补服装的兼容性,而且能够解释不兼容搭配套装中的不兼容属性并给出可供选择的服装建议,全面地解决服装搭配问题。其中,作者利用 NMF 挖掘潜在的搭配模板,并以此作为参考对不兼容搭配套装中的不和谐属性进行解释和修改。
实验结果证明该模型有较好的互补服装兼容性建模性能,同时也证明 NMF 在潜在搭配模板分解中有较好的效果。这篇文章为可解释的服装搭配提供了一种新的思路,是一篇值得分享的文章。
参考文献
[1] Xuemeng Song, Fuli Feng, Jinhuan Liu, Zekun Li, Liqiang Nie, and Jun Ma. 2017. NeuroStylist: neural compatibility modeling for clothing matching. In Proceedings of the ACM International Conference on Multimedia. ACM, 753–761.
[2] Xuemeng Song, Fuli Feng, Xianjing Han, Xin Yang, Wei Liu, and Liqiang Nie. 2018. Neural compatibility modeling with attentive knowledge distillation. In Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. 5–14.
[3] Al-Halah Ziad, Stiefelhagen Rainer, and Grauman Kristen. 2017. Fashion forward: forecasting visual style in fashion. In Proceedings of the IEEE International Conference on Computer Vision. IEEE, 388–397.
[4] Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and Xiaoou Tang. 2016. DeepFashion: powering robust clothes recognition and retrieval with rich annotations. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 1096–1104.
[5] Xiangnan He, Hanwang Zhang, Min Yen Kan, and Tat Seng Chua. 2016. Fast matrix factorization for online recommendation with implicit feedback. In Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 549–558.
[6] Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, and Tat-Seng Chua. 2019. Neural graph collaborative filtering. In ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 165-174.
[7] Wei Xu, Xin Liu, and Yihong Gong. 2003. Document clustering based on nonnegative matrix factorization. In Proceedings of the international ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 267–273.
点击以下标题查看更多往期内容:
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码