多模态bert-基于双流的bert 笔记 ViLBert、LXMERT、IMAGEBERT
-
ViLBert
paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
双流的 ViLBERT包括两个平行的视觉(绿色)和语言(紫色)处理流,它们通过新的共同注意转换层相互作用。这种结构允许每个模态的不同深度,并通过共同注意实现稀疏交互。带乘数下标的虚线框表示重复的层块。
输入:Image 和text :
输出:Attention 过的 Image 和text 的表示
模型
1.预训练步骤
2.联合表示Image 和Text
两个任务:1. 预训练:Mask掉image 和部分文字去预测image 或者word ;2 微调:预测是否对应
创新:在结构上加入交互attention之后去训练
-
2. LXMERT 论文解读
paper:(EMNLP 2019) LXMERT: Learning Cross-Modality Encoder Representations from Transformers
code: https://github.com/airsplay/lxmert
理解这两种模式之间的对齐和关系,提出对两种模态分布进行建模。这个框架模仿了最近的bert风格的创新,同时进一步适应了有用的跨模态场景。我们的新跨模态模型侧重于视觉和语言的交互学习,特别是对单个图像的表示和它的描述性语句。
- 模型结构
Input Embeddings:Word Embedding && Image Embeddings
Q:TODO Object-Level Image Embeddings 怎么做???
Encoders :language encoder && the object-relationship encoder
Output Representations:
language, vision, and cross-modality
训练任务:1. Language Task: Masked Cross-Modality LM
2 Vision Task: Masked Object Prediction
3 Cross-Modality Tasks
单流Bert--------image-text joint embedding
3. IMAGEBERT
数据收集过程