Learning Cross-modal Embeddings for Cooking Recipes and Food Images
这是CVPR2017的一篇做cross-modal retrieval的文章,paper和相关数据代码链接http://im2recipe.csail.mit.edu/,作者的homepage https://imatge.upc.edu/web/people/amaia-salvador。
文章要做的事情(recipe retreival):
输入:image(sentence)+dataset 输出:sentence(image) rank list
method
文章的framework如下所示。
主要是将文本和图像映射到共享的子空间,然后在子空间上做cosine similarity loss和softmax loss。