Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述
以下是本人每一章节整理的笔记:
1.介绍(introduction)
论文总体介绍了多模态的五个方向/挑战:表示(representation)、映射(Translation)、对齐(Alignment)、融合(Fusion )、联合学习(Co-learning)。
2.历史回顾(review)
对多模态应用领域进行了简单历史回顾:视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。
以下部分就开始对五个挑战/方向进行描述:
3.表示(representation)
定义:就是找到多模态信息的统一表示,在计算机中一般是向量或张量
表示方法 | 定义 | 面临困难 | 实现方法 | 适用情景 | 应用领域 |
联合表(joint) |
将各个模态的数据源映射到同一个空间中进行表示 |
1.如何把不同模态的数据结合起来 2.如何处理不同层(level)的噪音 3.如何处理丢失的数据 |
神经网络 概率图模型 Sequential模型 |
输入所有模态数据来得出结果,如输入语音和图片来得出识别结果 | 视听语音识别、多模态手势识别 |
协同表示 (coordinated) |
分别将各模态投影到独立的空间中表示,但是这些空间有约束关系 |
相似度模型 结构化模型 |
输入一种模态来得出结果,如输入一张狗的图片,输出“狗”的文本 | 多模态检索和翻译、grounding、零样本学习 |
4.映射(Translation/Mapping)
定义:映射就是把一个模态的信息映射成另一个模态的信息
映射方法 | 定义 | 面临的困难 | 实现方法 | 应用领域 |
---|---|---|---|---|
基于例子模型 (example-based) |
在多模态之间建立字典,形成对应关系 | 由于答案通常非常开放和主观,难以实现评估,如一张图片的描述文字可以有多种 |
基于检索模型 Combination-based模型 |
媒体字幕生成 视频描述 文本生成图片 |
生成式模型 (generative) |
通过训练,让模型产生映射能力 |
基于语法模型 编码解码模型 连续生成模型 |
5.对齐(Alignment)
定义:寻找多种模态的子成分之间的关系和对应,如图片中的狗对齐文本中的狗
对齐方法 | 定义 | 面临的困难 | 实现方法 |
---|---|---|---|
显式对齐 (explicit) |
显式对齐就是对齐任务的子结构,如菜谱步骤和视频的对齐 |
1.很少有显式对齐标注的数据集 2.在模态之间设置相似度指标很困难 3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应 |
无监督方法 (弱)监督方法 |
隐式对齐 (implicit) |
隐式对齐用作另一个任务的中间步骤,如文本检索图像,单词和图像区域的对齐 |
图模型 神经网络 |
6.融合(Fusion )
定义:将多个模态的信息整合到一起来预测结果
融合方法 | 定义 | 面临的困难 | 实现方法 | 适用场景 | 应用领域 |
---|---|---|---|---|---|
无模型方法 | 不依赖与某个特定的机器学习算法 |
1.信号可能不是时序对齐的(密集连续的信号和稀疏的事件),比如一段视频只对应一个单词 2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音 |
特征融合 决策融合 混合融合 |
它们几乎可以使用任何单模分类器或回归器来实现 |
多模态说话者(speaker)识别 多媒体事件检测 |
基于模型的方法 | 显式的在构造中完成融合 |
多核学习 图模型 神经网络 |
在数据量有限或者模型的可解释性很重要的时候,多核学习和图模型更好 |
物标分类 表情识别 视听语音识别 |
7.联合学习(Co-learning)
定义:通过数据源丰富的模态来辅助数据源稀少的模态进行学习
按数据分类 | 定义 | 实现方法 | 应用领域 |
---|---|---|---|
平行数据 | 来自相同的数据集,实例之间有直接的对应关系 |
Co-training Transfer learning |
视觉分类 动作识别 视听语音识别 语义相似度估计 |
非平行数据 | 来自不同的数据集,没有重叠的实例,但在一般类别或概念重叠 |
Transfer learning Conceptual grounding Zero shot learning |
|
混合数据 | 实例或概念由第三种模式或数据集连接 | Bridging |
8.结论(conclusion)
作者在结尾讲到,以前对融合这个方向做了很长时间研究,但是近段时间研究者们更热衷表示和映射这两个方向