分享|主动学习与半监督算法结合在支付宝风控的应用

作者介绍:蚂蚁金服风险与决策中心团队

蚂蚁金服风险与决策中心整体负责其国内外业务场景的交易和资金风险防控,包括盗用、欺诈、营销作弊、垃圾注册识别和决策等。

团队以大数据积淀挖掘和前沿机器学习研发应用为核心能力,开发了支付宝第五代风控引擎AlphaRisk,运用人工智能全面升级了蚂蚁金服的风控体系。

1.背景

拥有世界级领先的风控技术能力,历经十多年的发展,支付宝已从原先的CTU大脑全面进入人工智能时代,AlphaRisk[1]作为第五代风控引擎,其核心正是由AI驱动的智能风险识别体系AI Detect。

AI Detect是一套智能、高效的风险识别算法体系,不仅包含了传统的像GBDT,集成学习这种有监督学习算法,还包括了大量基于深度学习的无监特征生成算法,以及监督&无监督概念之外的新算法,本文介绍的工作正是其中之一。

当你站在超市收银台前,从点开支付宝二维码给扫码枪扫描,到支付成功的短短时间内,支付宝风控系统的上百个模型已经对这笔交易完成重重扫描,以检查是否手机丢失账户被盗用,是否欺诈被骗,是否有违法*等风险。

分享|主动学习与半监督算法结合在支付宝风控的应用

实践中,不同的风险类型会给建模带来不同的挑战。

一般而言,识别*风险的模型建设相比盗用和欺诈更困难一些,因为缺少主动的外部反馈机制,即缺少样本上的黑白标签。用户在被盗、被骗之后往往会联系支付宝,告知哪些交易非本人操作,抑或哪些交易是被骗的,这些反馈可以相对准确有效地沉淀成历史数据的标签。然而不会有*的人在交易后主动告诉支付宝或者银行,这笔交易他是在做*,而另一笔不是。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

对于最常见的有监督算法来说,没有标签就会面临巧妇难为无米之炊的困境。因此,现有的*风险识别方案多是基于无监督模型,如异常检测、图算法等。

无监督模型的优势正如其字面意义而言,即不需要标签,当然这也有其代价。

举例来说,异常检测模型(如Isolation Forest)对于输入特征的要求远高于一般的有监督模型,通常在特征数量稍多的情况下就难以保持其分值顶部的性能。

图算法则往往需要巨大的运算能力,才能应付支付宝每日亿级别的支付笔数,意味着更大的技术难度和计算成本。

当然,我们还可以用另一种方法解决无标签的问题:那就是基于人的业务经验进行人工标注,随后基于标注进行有监督学习得到模型。但这也面对着不少困难:

•   标注成本高:在我们的场景中,人工标注一个样本所需时间通常在5~15分钟,且需要具备相应的专业知识才能胜任,这使得我们难以大量标注样本,对标注样本信息量以及样本使用效率要求很高。


•   标注存在一定误差:即使是领域专家,在很多案例中也难以保证自己判断的准确率。一般来说,专家对于判定为黑的往往比较有信心,因为通常有证据可循。然而要判定为白,则需要排除所有不可能,这在事实上是难以真正做到的。

本文提出了一种基于主动学习(Active Learning[2],简称AL)与半监督(two-step Postive and Unlabled Learning[3],简称PU)结合的方法Active PU Learning。

原文链接