Deep Multimodal Learning A survey on recent advances and trends读书笔记

Deep Multimodal Learning A survey on recent advances and trends 读书笔记-YH

Introduction

在介绍这一节中提出了本文的目的和两个研究方向
目的是对多模态深度学习的现状进行全面的调查,并提出未来的研究方向。
本文的核心围绕的两个重要的多模态深层学习研究方向:

  1. 使用正则化技术改进跨模态学习的方法。
  2. 试图通过搜索、优化或某种学习过程来寻找最优的深层多模态结构的方法。

Background

首先介绍了遥感、医学图像领域应用多模态数据融合技术,介绍了多模态融合技术的发展。如图1所示,通过google scholar、arxiv和isi搜索的数据进行分析,表明对深度多模态学习的研究兴趣与日俱增。
Deep Multimodal Learning A survey on recent advances and trends读书笔记

图1 多模态深度学习出版数图
对多模态深度学习和传统的多模态学习进行对比,主要从学习方式、数据预处理敏感程度、特征选择和降维方式、扩展性、融合架构方式、训练数据的规模、超参数数量和GPU依赖性
  1. 多模态深度学习:学习方式是从数据中学习(特征和融合)、数据预处理敏感度低、特征选择和降维方式隐式、扩展性好、融合架构在训练中学习、训练数据规模大、超参数数量多、GPU依赖性强
  2. 传统的多模态学习:学习方式是手工设计、数据预处理敏感度高、特征选择和降维方式显式、扩展性差、融合架构手工制作、训练数据规模不需要很大、超参数数量没有深度学习多、GPU依赖性弱

简单介绍了多模态深度学习设计选择方式

  1. 选择何时融合不同的模式
  2. 选择要融合什么样的模式
  3. 选择涉及处理丢失的数据或模式

Applications

这一章节介绍了多模态深度学习在不同领域中的运用以及介绍了多模态学习数据集和公共多模态机器学习的挑战,如表2所示,主要问题在于识别上,主要领域为人类动作识别 、 医学应用 和自动驾驶系统。

表2 数据集与挑战

Deep Multimodal Learning A survey on recent advances and trends读书笔记

表3 应用领域与挑战

Deep Multimodal Learning A survey on recent advances and trends读书笔记

Models

主要有三类判别模型 、生成模型和混合模型。

判别模型

判别模型是直接对输入到输出的映射进行建模,通过最小化正则化损失函数来学习模型参数。

生成模型

生成模型通常描述观测或可见数据的高阶相关特性,用于模式分析或合成。

混合模型

混合模型在一个统一的框架中结合了判别模型和生成模型。可分为三个阶段:

  1. 联合方法,优化单个目标函数,以学习使用生成和判别组件的联合表示
  2. 使用迭代方法学习共享表示的迭代方法,例如使用从生成组件和判别组件更新的表示的期望最大化
  3. 阶段性方法,其中生成性成分和判别性成分在阶段1中分别训练

Fusion structure

如图2所示,其中(a)为早期或数据级融合,(b)为后期或决策级融合,(c)为中间融合。

  1. 早期融合
    早期的融合包括在被用作机器学习算法的输入之前,将多个数据源(有时非常不同)集成到一个单一的特征向量中。如图2(a)所示,Modality1~k均被集成到Data Fusion数据融合层中。
  2. 后期融合
    后期融合是指来自多个分类器的决策集合,每个分类器接受不同模型的训练。由于多分类器的错误往往是不相关的,而且该方法与特征无关,因此这种融合结构常常受到青睐。如图2(b)所示,Modality1~k分别产生各自特征然后产生模型,最后将模型进行融合。
  3. 中期融合
    神经网络将原始输入通过一个层管道映射到更高层次的表示。每一层通常交替进行 线性和非线性操作,这些操作缩放、移动和倾斜输入,生成原始数据的新表示。在多模态环境中,当所有模态都转换为表示时,就可以将不同的表示融合到一个隐藏层中,然后学习一个联合的多模态表示。深度多模融合的大部分工作都采用了这种中间融合方法,其*享表示层是通过将来自多模态特定路径的连接合并到该层来构建的。图2(c)说明了一个简单的中间融合模型,有三种模式。表示(特征)使用不同类型的层(例如,二维卷积、三维卷积或完全连接)来学习,并且表示使用融合层(也称为共享表示层)来融合。

Deep Multimodal Learning A survey on recent advances and trends读书笔记

图2 多模态学习的三种融合模型

Multimodal regularization

深度学习技术通过最小化损失函数迭代优化一组模型参数(通常是每层之间的权重和偏差)。为了改进泛化,使用一个或多个正则化策略,通常作为附加项添加到损失函数中。从计算的角度来看,正则化为优化问题提供了稳定性,从而加快了算法的速度,从统计的角度来看,正则化减少了过度拟合。
深度多模态学习环境中,一个重要的设计考虑因素是成本函数和正则化的公式化。作者列举了两个例子:信息论正则化和结构化正则化。
信息论正则化是利用信息的互信息性和信息的变异性等措施来构造的。
结构化正则化本质上对每一组模态特定权重分别应用某种形式的正则化

Fusion structure learning and optimization

当涉及两种以上的模式时,取决于问题中使用的模式的性质,选择最佳的融合架构可能更具挑战性。可以通过将其转化为模型搜索或结构学习问题来搜索最优的多模态融合体系结构。

网络良好的泛化能力与网络参数的数量和训练数据的可用性之间存在一个折衷。过大的网络可能表现良好或过拟合,这取决于它是否使用足够大的训练数据进行训练,而过小的网络可能会过拟合,并可能导致泛化不良。

Elman 提出从一个相对较小的网络开始,逐步添加隐藏的单元或层,直到找到性能最好的体系结构
T. Chen, I. Goodfellow, and J. Shlens 提出通过一个神经网络到另一个神经网络之间的知识转移,逐渐增加了网络的深度和宽度。
提到优化算法剪枝算法、遗传算法、贝叶斯优化 (剪枝算法和 遗传算法还未具体了解)
另外强化学习也被用于深层神经结构搜索,提出了一种利用rnn生成神经网络变长模型描述的新方法。使用强化学习训练rnn,以最大化验证集上生成的体系结构的预期精度 。

Datasets

这一节作者介绍了当前数据集的情况,了解到了数据集包含的模态可能有多种,还有部分数据集(如多模式医疗数据集)可能英文涉及道德隐私导致规模较小

Conclusions and future directions

作者重点提出的几个未来应用:

  1. 人类行为
  2. 医学影响应用
  3. 自动驾驶
  4. 智能机器人