多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers

作者创造了一个组件MAG, 用于使BERT 或者 XLNet这种 预训练的模型能对 多模态的信息进行 Fine-tune

组件的结构如下:
多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
MAG的主要思想在于:

非语言模态(其它两个模态)会影响词汇的意义,进而影响向量在语义空间中的位置, 所以非语言和语言共同决定了向量在语义空间中的新位置。 在此图中Zi 表示 只受文本模态影响的位置, 我们通过引入 audio, visual 两个模态的信息得到一个偏移量Hi, 然后计算得到新位置

多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
其中MAG的结构 由 AAAI2019 Words can shift Dynamically adjusting word representations using nonverbal behaviors 论文中的结构的一部分来的
多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
MAG的加入

多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
例如在BERT 中加入MAG, 我们在第j 层的输出Z, 与 j +1 层中间加入MAG,导入 另外两个模态的信息

问题:

  • 没有想到为什么能够进行fine-tune
  • 把一个AAAI2019年的组件 竟然用到BERT中, 这是我是没有想到的