多模态情感分类 论文阅读笔记 Integrating Multimodal Information in Large Pretrained Transformers
作者创造了一个组件MAG, 用于使BERT 或者 XLNet这种 预训练的模型能对 多模态的信息进行 Fine-tune
组件的结构如下:
MAG的主要思想在于:
非语言模态(其它两个模态)会影响词汇的意义,进而影响向量在语义空间中的位置, 所以非语言和语言共同决定了向量在语义空间中的新位置。 在此图中Zi 表示 只受文本模态影响的位置, 我们通过引入 audio, visual 两个模态的信息得到一个偏移量Hi, 然后计算得到新位置
其中MAG的结构 由 AAAI2019 Words can shift Dynamically adjusting word representations using nonverbal behaviors 论文中的结构的一部分来的
MAG的加入
例如在BERT 中加入MAG, 我们在第j 层的输出Z, 与 j +1 层中间加入MAG,导入 另外两个模态的信息
问题:
- 没有想到为什么能够进行fine-tune
- 把一个AAAI2019年的组件 竟然用到BERT中, 这是我是没有想到的