Behavior Language Processing with Graph based Feature Generation for Fraud DetectioninOnline Lending
- 欺诈检测存在很多挑战:信用相关特征的稀疏性,例如社会保险,工作认证,然而这些对于目标人群来说都是稀疏的。数据的速率、种类和容量。设备的行为数据在容量和维度上有爆炸性的增长,而且行为数据对说明一个人的金融风险很有用,因为它揭示了申请人的兴趣、社会关系、生活方式,很难伪造。实际上问题就是如何整合这些数据并且应用合适的数据挖掘方法去为风险控制提取金融的信号,因为像浏览器日志这样的信息有着复杂的结构。欺诈策略越来越狡诈熟练,一些人会用虚拟机器伪造机器和位置特性,传统的方法会失效。
- BLP数据收集了丰富的行为数据,包括但不限于移动设备的物理特征、网络访问记录、移动设备的社交联系记录、app上的行为追踪、位置的GPS追踪和申请人的基础信息。这些行为数据提供了丰富的实体集合,例如申请人的电话号码,申请人的家庭住址,申请人的公司地址,申请人的紧急联系电话号,还有设备相关的信息例如设备id,wifi mac地址,GPS坐标等等。这些实体被历史申请记录和不同的社会网络交互连接起来,实体和联系组成了图。
- 图分析在欺诈检测方面如此有效对的原因是欺诈者彼此社交联系更为紧密。在数学上有三种方法来衡量同质性。
Homophilic Test:检测cross-labeled edges的比例是否小于期望值。 edges cross-labeled edges意思是边的两个结点有不同的label,一个是欺诈一个是合法的。
Dyadicity:有两个欺诈节点的边/(随机网络中有两个欺诈节点的边的期望) Dyadicity>1的时候,暗示着欺诈结点联系的更紧密,展现了很好的同质性
Heterophilicity:有不同标签结点的边/(随机网络中有不同标签节点的边的期望) Heterophilicity<1,指的是欺诈结点与合法结点联系更少也证明了同质性。
除了同质性之外连通性是另一个重要因素,连通性衡量网络的密度,边的数量与完全图的比。如果定义的图有更小的联通性,欺诈更难传播。有用的关系是那些高同质性和高联通性的。
121164个申请人样本中,6%的申请样本是欺诈的。期望的交叉标签边的比例是0.12,那些交叉边比例小于0.12同时有更大连通性的量被选择。 选择也依赖专家的商业意识,例如公司的电话比名字展现更大的同质性因为前者更精确, wifi mac地址比ip地址更好因为后者更加不固定而且与移动设备的联系松散。
Bipartite Graph(二分图):但是在文档里写了异构图,不是很懂。
在上面的部分都是说有一种结点类型的图,当共享几个同样的关系时两个申请人结点可能被几个边连接起来。因此使用了复杂图,所有的实体,例如设备id,wifimac地址也是结点,然而申请结点不能彼此直接相连,他们必须通过一个关系实体连接。这些关系实体被当做相同类型的结点,信息节点。复杂图就被简化为二分图。在这种图中,申请结点有申请日期、贷款决定、贷款行为、贷款数量等等属性。信息节点的属性因实体不同而不同,从申请结点到信息结点的边表明关系的类型。
Edge Weight Setting:二分图中边的权值表示关系的强度。强度揭示了两个特征,一个是关系连接的强度,解释起来就是身份证号码的联系比公司名字的联系更紧密。在欺诈检测设置中,利用同质性度量的映射函数估计关系的亲密度。另一个要考虑的特征是时间衰减影响。欺诈是时间动态的,网络的历史信息应该基于最近衰减或者重新加权。下面的指数函数用来估计动态网络的权值。
a是通过同质性度量得到的关系的紧密度,b是时间衰减系数。
Hubs Removal:在图论中,节点的度遵循幂律,在二分图设置中仍然有效。一个信息
低度节点。因此信息节点的枢纽将面临大量的欺诈行为从而产生误报。