Cross-media Retrieval
Reference:
An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges
(关于跨模态检索的概念、方法、主要挑战和开放性问题,包括数据集和实验结果的基准)
主要挑战:media gap
不同模态的表示特征不一致并且位于不同的特征空间中,主要挑战是度量它们之间的相似性。
当前的主流方法:common space learning methods
在共同空间中计算不同模态之间的相似性。同时,提出了跨模态相似性度量方法,通过分析已知数据关系直接计算跨模态相似度,而无需具体的共同空间。
大多数现有方法仅用于检索两种媒体类型(主要是图像和文本),但跨模态检索强调媒体类型的多样性。
共同空间学习and跨模态相似度度量
一、Definition of Cross-media Retrieval
两种模态类型: X
Y
训练数据集:
n为训练集实例数量
测试数据集:
n为训练集实例数量
语义标签:
目标:计算跨模态的相似性
无监督方法:所有训练数据未标记
半监督方法:仅标记训练数据的一部分子集
全监督方法:所有训练数据标记
跨模态检索的代表性工作:
U:无监督方法 S:半监督方法 F:完全监督方法,R:涉及相关性反馈的方法
跨模态检索:
输入:image(sentence)+dataset 输出:sentence(image)rank list
跨模态检索是跨文本,图像,视频,音频和3D模型等所有媒体类型的检索,其主要挑战和焦点是“media gap”问题。
二、Common Space Learning
跨模态检索的主流方法是Common Space Learning,因为表达相同语义的数据有潜在的关联,因此它们在共同高级语义空间(common high-level semantic space)中相近。
学习一个共同空间,并将不同媒体类型的数据投影到该空间以进行相似度测量。
七类现有方法:
(A) traditional statistical correlation analysis methods (传统的统计相关分析方法)
On basic model:
(B) DNN-based methods(以深度神经网络为基本模型)
On correlation modeling:
(C) cross-media graph regularization methods(采用图模型来表示复杂的跨模态相关性)
(D)metric learning methods (将跨模态相关性视为一组相似/不相似的约束)
(E) learning to rank methods(跨模态排名信息作为优化目标)
On property of common space:
(F) dictionary learning methods
(字典学习方法生成字典,学习的公共空间用于跨模态数据的稀疏系数)
(G) cross-media hashing methods(学习一个a common Hamming space 来加速检索)
A. Traditional Statistical Correlation Analysis Methods
通过优化统计值来学习线性投影矩阵
常用的基线方法:CCA DCCA:DNN与CCA结合,CCA的非线性扩展。
缺陷:1.仅通过线性投影很难完全模拟现实世界中跨模态数据的复杂相关性
2.大多数方法只能模拟两种媒体类型,但跨模态检索通常涉及两种以上的媒体类型
B. DNN-based Methods(深度神经网络)
跨模态检索中的深层体系结构主要包括两种方式。
1.第一种方式可以看作一个网络,不同媒体类型的输入通过相同的共享层
2.第二种方式包括在代码层中通过相关性约束耦合的子网
可考虑方法:GAN
C. Cross-media Graph Regularization Methods
图正则化可以描述跨模态数据的各种相关性,例如语义相关性,模态内相似性和模态间相似性。
缺陷:图构建过程通常导致高时间和空间复杂性
D. Metric Learning Methods
E. Learning to Rank Methods
F. Dictionary Learning Methods
G. Cross-media Hashing Methods