Image Matters Jointly Train Advertising CTR Model with Image Representation笔记

摘要：

年份：2017 arXiv

作者：阿里巴巴

贡献：与前面文章的区别在于，图像不单可以表征广告，用户历史点击过的图像也可以用来表征用户行为特征，比如当前图片与用户点过的某张图片很相似，用户的点击概率就会比较高。文章利用广告相关id特征、广告图像特征、用户点击过的图像特征共同建模，end-to-end训练，预测点击率

网络结构：

Image Matters Jointly Train Advertising CTR Model with Image Representation笔记

从技术角度模型架构如下：

CTR预估问题可以用下述公式表示：

其中的id为不同类型的id特征（不同slot_id）即one-hot特征向量，y为预测值

进一步分解，可以将F分解为两个模块：表示函数Fr和判别函数Fd，表示函数表示从输入到embedding的一种学习方式，判别函数将这些表示连接在一起去拟合目标，如上图中ID1到IDN表示特征类1-N，通过各自的学习方式得到embedding vector 1-N，和AdNet、UserNet的表示concat一起，通过一层NB，然后多层FC，最终sortmax分类，其中的BasicNet，作者使用的是简单的一层FC，输出维度统一是12维，作者共使用了27个ID类特征走BasicNet，包括用户画像、用户行为、广告特征、场景特征等，下面重点讲一下其中的两个子网络AdNet和UserNet

AdNet：

AdNet用来处理样本的图像特征，网络结构为VGG-16的前14层（13个卷积层，分成了Conv1-Conv5共5组，和一层FC，即FC6），这部分在训练整个网络的时候是fixed，即不更新参数，然后接3层FC，这部分在训练时是需要更新的，整个网络分为fixed和trainable两部分是为了加速训练，同时能够进行任务适应性学习

UserNet：

用户历史点击过的图像会经过和AdNet一样的网络得到表示，由于每个用户历史点击图片的个数是变长的，所以这里需要用pooling处理，如果使用sum-pooling，那么此时假设就是每个图像对当前用户点击广告的权重一样，这样显然是不合理的，因为用户点击过的图千差万别，如果每个图对当前点击影响权重一样，那么就会引入噪声，更合理的是其中一部分图对当前用户点击行为有影响，即用户历史点击过的和当前预估广告图片相似的图更能影响用户点击行为，因此作者采用attention机制处理这个问题：

① 通过AdNet网络获取用户点击图片向量表示

② Concat当前用户点击图片向量表示+basic表示1-N+预估广告图像表示

③ 级联3层FC，最后一层输出维度为1，即attention的score，并用softmax归一化得到weight

④ 通过attention机制（权重为③计算得到的），对每个用户历史点击图片向量表示做pooling

使用用户历史14天点击过的图片，平均每个用户32.6个不同的图片
使用PReLU作为**函数（作者说用着比较好），Adam作为优化器

实验部分：

特征实验

basic ID算法是不包含广告ID的ID类特征作为输入，LR作为预估模型，作者将它作为baseline；basic ID-LR是LRweight作为输入，LR作为预估模型；后续的模型分别是在basicID上加入对应特征的结果（注：user IDs不是用户ID，而是用户点击过的广告ID，同理user images也是用户点击过的广告图片）

分析：可以看出加入广告ID和图像特征均比base版高，而且两者结合效果更好；再看加入user特征效果如何，可以看出，加入user IDs反而效果下降，加入user images效果有提升，说明使用用户历史点击过的广告ID对预估是负向作用的，因此，最终作者使用的是基础特征+广告图像特征+广告ID特征+用户历史点击图像特征

2. AdNet实验

分析：针对使用何种网络作为图像特征提取器，作者进行了四个实验，从表中可以看出，使用原始VGG16效果已经足够，确定使用VGG16后，作者又对使用多少层做了实验，可以看出，深度到Conv5是最好的（13层卷积层），但是此时的问题是向量维度太高，不利于存储和通信，因此作用多用了一层FC，降低维度

3. UserNet的pooling对比

4. 可视化训练结果

可以看出，用户历史点击图片和当前预估广告更想相似的图片对点击权重影响更大

Image Matters Jointly Train Advertising CTR Model with Image Representation笔记

相关推荐