Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

摘要

这篇paper提出了一种基于深度语义排序的方法来学习hash function,从而保证生成的hash code与多标签图像之间的多层次语义相似。该方法 中采用deep convolutional neural network来学习哈希函数,特征表示以及保持hash code与feature representations之间一致性,从而避免了用手动设计特征进行图像语义表示的限制;此外,采用能够进行编码多级相似信息的ranking list进行指导deep hash function的学习;采用一种基于surrogate loss(代理损失)函数的有效方法进行该学习过程中非光滑和多元排序度量非常棘手的优化问题。实验表明在多标签的公开测试图像数据集(MIRFLICKR-25K和NUS-WIDE)上该方法是state-of-the-art。

主要思路

对于图像检索任务目的无非就是把数据库中的图像,按照和查询图像的相关性由大到小的顺序,依次返回。基于这个思想提出直接让网络学习这个排序,因此该方法称为DSRH(Deep Semantic Ranking Hashing)。事实上,这种做法相当于直接对最终的评测指标进行优化,直接优化排序并不容易,因此使用一个凸上界作为替代(surrogate loss),进行优化。

Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

如上图所示,采用deep convolutional neural network来构建hash function从而学习更加丰富的语义信息;同时,学习到的hash fuction具有语义排序监督,该序列就是查询和图像数据集之间的序列。该学习过程是特征表示和hash code匹配的联合优化,比之前CNNH的两个阶段有效的多。采用surrogate loss函数进行非光滑和多元排序度量策略的优化,同时采用SGD来进行整个mode参数的优化。

主要贡献

(1)提出一种具有语义排序和深度学习图像特征的hash fuction,从而保证多标签图像的多层次语义相似性。这也是首次利用CNN来进行基于listwise监督排序哈希学习,之前都是基于Pairwise的;

(2)排序策略的优化采用surrogate loss函数;

(3)多标签的图像搜索任务中DSRH模型是state-of-the-art。

DSRH模型

     Notation And Problem Definition

hash function h:Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval 从D维空间映射到binary code。class label :Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval 数据集:Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

其中每个数据具有多个类标签。我们的目标在于学习到a set of function Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval ,该function可以保持多标签的语义结构。

     Deep Hash Function

Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

作者采用了parallelizing convolutional neural networks的网络结构,5个卷积层,两个FC,采用local normalization和max pooling;

同样采用bypassing connection,使得FCa直接与hash layer连接从而减少信息损失;作者认为从FCb获得的feature依靠于太多的classes而且有很强的恒定性,不利于获得细微的语义区分度,因此采用两个FC从而encode出更多不一样的特征信息。定义deep hash fuction:

Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval 其中fa(x)和fb(x)为FCa和FCb获得的特征。为了获得K-bit binary code ,从而计算h(x;W) =[h1(x;w1); h2(x;w2); :::; hK(x;wK)]。

     Semantic Ranking Supervision

假设我们来自于数据库D的一个样本点作为查询q,对于查询q而言,数据库中样本点x的语义相似层次r可以通过他们的共同标签进行计算,与查询q最相似点是标签与q完全一致的点,完全不相似的点就是与q的label完全不一致的点。这样就可以根据所有的sample的相似度层次进行降序排序,从而可以利用Normalized Discounted Cumulative Gain(NDCG)进行hash function预测的序列与该序列的一致性。

Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

其中p为ranking list中的截断位置;Z是正则化常量以确保正确ranking的NDCG是1;ri是i-th数据库总样本点在ranking list 的similarity level。如何优化ranking loss 在下一小节介绍。

     Optimization with Surrogate Loss

采用surrogate loss函数进行优化,本文surrogate loss函数的类型与Ranking SVM中的一样,对于给定的q和一个ranking listDeep Semantic Ranking Based Hashing for Multi-Label Image Retrieval,定义基于三元组hash code 的ranking loss。

Deep Semantic Ranking Based Hashing for Multi-Label Image RetrievalDeep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

Deep Semantic Ranking Based Hashing for Multi-Label Image RetrievalDeep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

实验

数据集采用的两个多标签的基准数据集:MIRFLICKR-25K  NUSWIDE

实验1:在DSRH与DSRH-NS(没有FCa)和DSRH-NS-NW(没有FCa+没有权重)分别在MIRFLICKR-25K和NUSWIDE分别测试性能指标Normalized Discounted Cumulative Gain (NDCG) , Average Cumulative Gain (ACG) 和weighted mean Average Precision (mAP)

实验2:在DSRH与其他模型在MIRFLICKR-25K和NUSWIDE分别测试性能指标Normalized Discounted Cumulative Gain (NDCG) , Average Cumulative Gain (ACG) 和weighted mean Average Precision (mAP)

实验3:在DSRH与其他模型在activation features of fine-tuned CNN 的MIRFLICKR-25K和NUSWIDE分别测试性能指标Normalized Discounted Cumulative Gain (NDCG) , Average Cumulative Gain (ACG) 和weighted mean Average Precision (mAP)