NeurIPS 2020|京东基于卡尔曼滤波的注意力机制—广告点击率预估中的用户行为建模...
声明:本文转自公众号:京东零售技术
导读:本次介绍京东广告团队在用户行为建模中的工作:基于卡尔曼滤波的注意力机制—广告点击率预估中的用户行为建模。
此次工作《Kalman Filtering Attention for User Behavior Modeling in CTR Prediction》被NeurIPS 2020成功收录为Spotlight论文。
针对电商场景中,用户经常出现历史行为中没有表现过的新的兴趣,对不同品类商品行为频次严重不均衡这两个问题,提出了新的用户行为建模算法。该技术旨在克服已有基于Attention算法的不足,并基于卡尔曼滤波给出一套新的算法框架。
本文分为上下两部分:上部分见NeurIPS 2020|京东基于卡尔曼滤波的注意力机制—广告点击率预估中的用户行为建模(上):图解卡尔曼滤波,本部分介绍具体论文工作。
任务背景
广告点击率(Click Through Rate, CTR)预测问题,即已知户信息( )、商品信息( )、和环境信息( ),预测该用户点击该广告的概率,即:
CTR预测是广告领域的最根本问题之一。精准的广告点击率预测是整个广告系统的基石,直接关系到京东数亿活跃用户的使用体验与百万广告主的切身商业利益。
在电商场景下,用户在平台上产生了大量的浏览、点击、购买行为。相比于用户年龄、性别等静态属性,这些行为包含了更多、更细力度、更实时的用户偏好信息。因此,对用户行为建模,能有效挖掘用户兴趣偏好,从而为CTR预测提供强有力的支持。
本文的目标是:提出了一种用户行为建模方法,能从用户丰富的历史行为中,提取能精准地表达用户实时兴趣偏好的特征向量,从而助力后续的CTR预测。
现有方法
现有用户行为建模模块,均采用经典的注意力机制(Attention)来融合用户历史行为的特征表示。具体地建模过程都可以看成一种对用户行为序列的某种加权求和:给定特定用户的 1)当前搜索词
,2)长度为
的历史行为
和,3)其对应历史搜索词
,预估用户对当前搜索词的兴趣偏好
。具体为:
其中, 是历史行为 的权重。以最基础的Vanilla Attention为例:
直观地,与当前搜索词相关的行为会被赋予更大的权重,是几乎所有现有注意力机制的共同设计理念。State-of-the-art的算法包括DIN [1]、DIEN[2]、Transformer[3]等。
然而这些现存的注意力机制都存在着两个缺点:
传统的注意力机制大都假设用户此刻的兴趣 一定被历史行为 覆盖。然而实际的电商场景中,用户的当前兴趣,经常是与他们相关历史行为 无关的新商品(图一,左)。在这种情况下,无论权重 如何分配,都无法用历史行为的加权平均来刻画用户此刻的兴趣。
传统的注意力机制将所有用户行为等价看待,而忽略电商领域中用户行为的严重的频次不均。所以,在加权求和的过程中,高频用户行为(复购周期很短的食品、消耗品)相比于低频用户行为(例如奢侈品、电器)会获得较大的总权重(图一,右),导致用户兴趣偏好预估有偏。
图一、电商场景下传统Attention结构的缺点。左:随着用户行为序列长度的加长,目标商品类别更可能在用户历史行为中有所体现。但即使序列长度高达400时,仍存在10%以上的行为属于新的诉求。右:绝大多数情况用户行为都被被高频行为占据,而高频行为有很大可能性与目标无关。当目标商品为复购率低的商品如手机、手表时,情况更加严峻。以上两个问题都限制了用户兴趣抽取的精度,影响后续CTR预估的准确性。
我们的算法原理
针对电商场景中,用户经常出现历史行为中没有表现过的新的兴趣,对不同品类商品行为频次严重不均衡这两个问题,我们提出了新的用户行为建模算法。该技术旨在克服已有基于Attention算法的不足,并基于卡尔曼滤波给出一套新的算法框架。在新框架中,算法一方面能做不局限于用户历史行为的兴趣抽取,另一方面能够克服用户行为中频次差异巨大的问题。相比于现有的用户行为建模算法,我们提取的用户兴趣更精准、无偏,从而提升CTR预估准确性。
1. 基于卡尔曼滤波注意力机制的用户行为建模
卡尔曼滤波是原本用于多传感器融合的算法:假设各传感器都存在一定测量误差(置信程度),融合得到误差更小、更精确的目标变量估计值。在这里我们借鉴卡尔曼滤波的思想,对传统的注意力机制进行改进。以下将方法命名为Kalman Filtering Attention,简称KFAtt。
给定当前搜索词 ,我们假设用户对当前搜索词的兴趣偏好 服从高斯先验分布 。这里的随机变量,刻画了不同的用户,在相同搜索词 下的兴趣偏好。具体地, 代表着用户兴趣偏好的平均值,即在搜索词 下的爆款商品; 代表着兴趣分布差异,即对于越具体的搜索词,兴趣分布差异越小。
同时,我们将用户历史行为 看成当前兴趣偏好 的 次独立的、不确定性不同的传感器 的观测值。并假设这些观测值服从高斯分布:
其中不确定性 可以认为是传感器 和待测量量 的距离,在用户行为建模场景下可以认为是当前搜索词和历史搜索词的距离。
因此对当前搜索词的兴趣偏好 ,就可以通过最大后验估计(MAP)得到:
其中 表示高斯概率密度函数。该MAP存在解析解:
通过引入兴趣先验,对用户没有在历史行为中表现过的新诉求,KFAtt也都可以很好地建模。借助 ,KFAtt得以从其他用户的兴趣表达中学到当前用户的先验。借助 ,KFAtt得以在兴趣先验和用户行为后验之间折中。
实际操作中, 和 都可以输入 通过两层全连接层得到。 可以通过 和 的距离得到,例如取 则最终得到的计算表达式和传统Attention的表达式非常类似。如果进一步让 (在不考虑用户兴趣先验的情况),KFAtt将退化为传统Attention,也说明了本方法的合理性。
2. 带频次控制的卡尔曼滤波注意力机制
在KFAtt基础上,我们进一步针对用户行为中不同品类商品行为频次严重不均衡的问题做了方法改进:Kalman Filtering Attention with Frequency Capping,简称KFAtt-freq。
沿用KFAtt的假设,我们依然假设用户对当前搜索词的兴趣偏好 服从高斯先验分布 。不同的是,为了处理不同种类商品的频次不均问题。我们对历史搜索词 进行去重,对历史行为 按搜索词归并。
具体地,用户行为建模可以抽象为用 个相互独立的传感器 ,对 进行的测量。在传感器 上,我们得到 个测量值 . 显然 。
每个测量值 中的误差中,包含两个独立的部分:
系统误差 ,由传感器本身带来的误差。传感器 和目标 的距离越远系统误差越大。
测量误差 ,传感器精度带来的误差。这部分误差通过多次重复测量可以降低。
假设这两部分误差都服从高斯分布,那么:
其中 是排除掉测量误差外的,传感器 的测量值。而测量值:
因此和KFAtt类似,KFAtt-freq也可以通过最大似然估计(MAP),得到对目标对当前搜索词的兴趣偏好 :
该MAP存在解析解:
其中 ,表示同一个传感器下的多个测量值的均值。KFAtt-freq相比KFAtt,由于将用户同商品品类的多个行为当成同一个传感器的多次测量而多次重复测量只会降低测量误差,无法降低系统误差。因此这些行为对最终 的总贡献会存在上限,进而可以解决行为中频次差异巨大带来的问题,做到精确、无偏的用户兴趣抽取。
实验效果
我们首先在亚马逊商品推荐数据集上,测试KFAtt和KFAtt-freq算法的表现。如前文讨论,我们算法的收益来自 1)引入全局信息解决用户当前新兴趣不被历史行为覆盖的问题 2)通过频次控制解决不同种类行为频次不均带来的权重有偏的问题。为了证明这一点,我们从亚马逊数据集里额外抽取了两个挑战更大的子测试集New( 与 都来自不同类别)和Infreq(与 同类的 极为低频,即 ). 实验结果如下:
我们的算法(最右两列)的AUC明显高于所有被比较State-of-the-art算法,并且在New和Infreq上的优势更为明显。这不但证明了我们算法的优越性,也验证了我们的两项Motivation的合理性。
我们的算法可以广泛适配于多种现存注意力机制,并获得一致性的提升。
我们的算法应用于京东具体搜索业务,在百亿样本的巨大工业数据集上,和在真实的线上流量里,获得了较大的效果提升。
我们的算法在线上系统中的耗时,远低于DIEN,与最高效的STOA算法平齐。
结论
我们提出了一种基于卡尔曼滤波的注意力机制,用于工业级广告点击率预测系统中的用户行为建模任务。通过卡尔曼滤波建模,有效地引入特定搜索词的全局先验信息,并有效控制高频商品在用户行为中的权重,从而得到比现存注意力机制更适配用户行为建模任务的算法,有效提升用户行为建模及其后续广告点击率预估的准确性。
参考资料:
[1]. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate.
[2]. Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction.
[3]. Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep interest evolution network for click-through rate prediction.
[4]. Feng, Y., Lv, F., Shen, W., Wang, M., Sun, F., Zhu, Y., & Yang, K. (2019). Deep session interest network for click-through rate prediction. arXiv preprint arXiv:1905.06482.