全连接网络的设计--- 具有注意力机制的多层感知机(Deep Interest Network)

这是一篇阿里做点击率预估的文章。点击率预估用的数据通常是一些特征数据,包括一些历史行为数据、属性数据等。

这里主要讲网络的设计,所以直接看网络结构
全连接网络的设计--- 具有注意力机制的多层感知机(Deep Interest Network)

网络

先看图片的左边的网络,这是一个非常普通的结构,没有加注意力(attention)结构。可以看到这个网络包括这些东西:

  1. group wise,即特征分组,然后分组提取特征,最后做concat;
  2. 这里看不到的,将系数向量转换为embedding 向量。
  3. 通过pooling来讲长度不固定的向量,转换到固定长度的向量。

右边的网络增加了注意力模块。

  • 通过候选广告和历史行为,对历史行为进行加权;
  • 这个注意力是一个分支一个权重,并且不需要权重相加为1,每个权重独立。
  • DIN通过引入本地**单元,通过软搜索历史行为的相关部分来关注用户的相关兴趣,并采用加权和池的方法得到用户对候选广告的兴趣表示。与候选广告相关性高的行为会得到更高的**权重,并主导用户兴趣的表现。
  • 因为有些分支和结果可能忘全无关。但是如果不加注意力,那么权重就已经固定了。