多模态学习-基于文本和图像信息的商品分类框架
将文本model和图像model合并为一个model,因为它们包含了互补的信息。
对于图像和文本数据,都是用CNN。对图像数据,使用已经在Image-Net上训练过的网络,该网络已经具有为自然图像提取丰富特征的能力。利用预先训练的机器学习模型称为转移学习。对文本数据,使用一个预先在商品标题上训练好的TextCNN模型。
利用预先训练的机器学习模型对新场景重新训练学习的过程称为转移学习。
我们希望从这两个模型的交互中获得更大的收益,所有我们创建了两个CNN分枝,一个分枝接受向量话的图像,一个分枝接受向量话的文本。整个架构如下:
效果评估
直接使用两个模型,和联合到一起的模型:
Images | Text | Images + Text |
---|---|---|
85% | 86% | 93% |
预训练的VGG网络是在Image-Net的1000个类上的训练结果,没有一个是服装或图书,所以可以使用特征类目对其进行微调,我们选择了微调最后3个卷积层,下面是微调后的训练结果:
Images | Text | Images + Text | Images + Text + Fine Tuning |
---|---|---|---|
85% | 86% | 93% | 94% |
尝试:
3.图像model先在真实类目上微调。
4.交替训练还是联合训练。
5.用LSTM-attention代替TextCNN。