知识图谱 | 带你了解反洗钱的复杂网络分析
【原创文章,转载请注明出处,文章原地址】
知识 | 带你了解反洗钱的复杂网络分析mp.weixin.qq.com
1.背景
反洗钱模型报告中主要从模型层面出发验证了捕获到图信息的模型比没有捕获到图信息的模型优异,考虑图的动态网络变化也对建模有提升效果,且最终对最优模型提出了适应性解决方案。
但文中并未对交易网络进行复杂网络分析,从复杂网络角度分析问题可能会提供更多的可解释性考量,复杂网络分析主要包括节点中心性分析、网络异常交易结构发现、资金流转路径发现。本报告将结合复杂网络分析对反洗钱交易中的非法交易进行可解释性探索。
2.结论
本次任务主要是对反洗钱交易网络进行复杂网络分析,分别从节点中心性角度、N阶聚合角度、网络结构发现角度、资金流转路径角度探索解决反洗钱任务的新方案。
通过分析得到结论如下:
- 一阶聚合中心性指标在表现上优于节点中心性指标,证明获取节点周围一阶关联属性信息越多,对模型的增强效果越好。
- 融合了中心性聚合指标的模型RF(C+C1+C2+AF),对比原始特征集合RF(AF)模型在精度上有1%的提升,召回率有5%的提升,F1有4%的提升。其中C为节点中心性特征集,C1为一阶聚合特征集,C2为二阶聚合特征集,AF为原始特征集。从模型角度中心性聚合指标有提升效果,从可视化角度中心性特征指标可以很快的找到关键节点。
- 网络交易结构发现可以找到网络中的非法交易模式,并做到可以案件的反查回溯。
- 资金流转路径可以发现更多的非法交易节点,也为非法交易模式提供了更多的可解释性。
3.复杂网络分析
3.1.节点中心性分析
社会网络分析(SNA)算法可以用于网络中各个节点的信息度量,衡量节点在当前网络中的重要程度,最早是应用于社交网络的小世界算法,用于确定社交网络中起到关键性的个人。知识图谱反洗钱可以进行借鉴,可用于挖掘图中的关键信息,比如关键性账户、关键性个人和关键性交易。常用的社会网络分析算法有PageRank、介数中心性、度中心性、特征向量中心性和紧密性中心性等等。
3.1.1.中心性特征表示
图节点中心性分析特征表示:
节点中心性分析是为了定位网络中存在的关键性交易,假设越是关键的交易越可能存在非法的交易行为,但在原始特征集中并未加入节点中心性指标,且未从节点中心性角度对网络进行可解释性分析。
3.1.2.中心性特征分析
对当前反洗钱网络进行图中心性算法计算,将得到每个节点的中心性特征向量,共计10个指标。分别为:
- Cen_pagerank:PageRank节点重要性;
- Degree:度;
- Outdegree:出度;
- Indegree:入度;
- Cen_bet:介数中心性;
- Cen_in_bet:入度介数中心性;
- Cen_out_bet:出度介数中心性;
- Cen_eigen:特征向量中心性;
- Cen_col:紧密中心性;
- Cen_harmonic:加权紧密中心性;
计算各指标IV RANK,可以发现中心性特征向量集对于交易节点分类模型来说是有较强的区分效果的。
表 1 图中心性特征向量IV RANK
图 1 出度、度
图1为出度、度指标IV图,大部分的比特币交易只存在1个出度交易或1个入度交易,即比特币流入非法交易节点后,又流出到下一笔交易,非法交易节点只作为一个中转交易节点,承载流转交易的作用。而非法交易往往存匿与此种简单的交易模式当中,同时随着度数的增加非法行为也锐减。
图 2 调和中心性、紧密中心性
图2为调和中心性和紧密中心性指标IV图,可以发现它们具备很好的线性的趋势,紧密中心性的含义是度量节点与同一连通子图下网络中其他节点的距离,与紧密中心性的区别是调和中心性扩展到了非联通子图情况。它的含义是如果网络中的节点想要在网络中传递自己的信息,可以用它来定位网络中关键点。所以可以推断网络中越是关键的节点越不太可能存在非法交易,关键交易往往都是合法的。
3.1.3.中心性特征网络分析
可视化中心性特征网络分析,从原始拓扑结构观察网络中非法交易节点的交易模式。
图 3 网络中PageRank最高的节点
上图3中心节点为PageRank最高的节点,表明此节点为当前子图中最重要的节点,可以发现它有很多的输入和输出,它和其他节点的连接最多可能是转账交易中最活跃的节点。这样的节点应于重点关注。它可能存在较高的非法风险。
图 4 网络中介数中心性最高的节点
上图4中标记节点为网络中中介数最大的节点,它可能是很多个子交易网络的过度(桥接)节点,它在网络中起到连接其他交易节点的任务,可能会是一个中介账户。
3.2.中心性指标聚合分析
中心性指标聚合可以理解为学习网络节点一阶、二阶属性表示,一阶属性信息即为一度关联性指标,二阶属性信息即为二度关联性指标,这里只探讨中心节点的一阶、二阶内容表示。
3.2.1一阶聚合分析
一阶聚合分析包括一阶出向(>)关系聚合、一阶入向(<)关系聚合和一阶无向(<>)关系聚合,共得到252个一阶聚合特征指标。
图 5 一阶聚合指标构造
下表2为252个变量的IV RANK(只截取了部分变量),可以发现一阶聚合特征在变量区分度上比节点中心性指标区分度好。Outdegree只能排在第19位。
表 2 一阶聚合特征指标IV RANK
图 6 一阶聚合调和中心性、调和中心性
上图6为一阶无向聚合调和中心性加和指标和调和中心性指标IV图,可以发现一阶无向调和中心性加和具有比调和中心性更好的线性趋势,所以可以做交易模式推断,网络中越是关键的交易节点,交易的非法性概率越低(非法交易总是要低调,不能肆无忌惮的洗钱),而其周围一阶关联的交易节点非法性概率也低,可以理解为与合法的交易关联的交易大概率是合法的。
图 7 一阶出向聚合Pagerank最小值、Pagerank
上图7为一阶出向聚合pagerank最小值指标和pagerank指标IV图,可以发现他们存在相反的趋势,pagerank值越大,证明交易在网络中的地位越高,但同时非法率越低,但关联的一阶出向交易中pagerank的最小值越大,反而非法率越高。
3.2.2二阶聚合分析
二阶聚合分析会比一阶聚合更加复杂,需要考虑的情况比较多,下图6包括一阶出向(>)二阶出向(>)关系聚合、一阶入向(<)二阶出向(>)关系聚合等等9种组合方式,共得到3*3*10*5=450个二阶聚合特征指标。
图 8 二阶中心性指标聚合
表3为二阶聚合特征IV RANK(只截取了部分特征),可以发现二阶聚合特征中只有部分变量效果好于中心性变量,但都比一阶聚合特征效果稍差。证明对于一笔链路较长的交易而言,不会存在太高可能的非法性,大部分的洗钱交易实际上交易模式并不复杂。
表 3 二阶聚合特征IV RANK
图 9 二阶聚合调和中心性加和、一阶聚合调和中心性加和
上图9可以看出二阶聚合调和中心加和虽然和一阶聚合调和中心性加和具有相同的趋势,但效果没有后者好,对于交易反洗钱网络来说,对于每一笔交易,洗钱者都希望快速的完成任务,不希望中间周转过多的账户。
表 4 中心性聚合指标模型
备注:其中C为节点中心性指标,C1为一阶聚合指标,C2为二阶聚合指标,AF为原始特征集合,RF为随机森林(n_estimators=50,max_features=100),图中评价指标是对非法交易的评估。
上表4可以看到,融合了中心性聚合指标的模型RF(C+C1+C2+AF),对比原始特征集合RF(AF)模型在精度上有1%的提升,召回率有5%的提升,F1有4%的提升。
3.3.网络交易结构发现
网络异常交易结构发现主要从网络中找到一些模式化的异常资金结构,举例如下:
- 频繁汇入/汇出
- 链式交易结构
- 集中转入/转出
- 分散转入/集中转出
- 环状交易结构
- 其他异常交易结构
图 10 非法链式交易结构
上图10为网络中的非法链式交易结构,可发现节点间都为单向的转出关系,其中可以定位此笔交易的起始节点和最终节点,从而追溯完整的交易链条。
图 11 非法集中转入到合法
上图11位非法集中转入交易,可以发现转入交易中心为合法交易,这次交易显然是有计划的一次转账行为,其中还混杂着合法的转账交易,通过此次交易最终达到“洗白”的目的。
图 12 非法集中转出
上图12为非法转出交易,一个负责洗钱的交易中心节点,往往都是起到过度的作用,大部分转入的钱都会通过各种手段转出。所以通过计算交易节点的折损率(转出金额/转入金额),在配合集中转出模式,可以识别出非法中介中心。
3.4.资金流转路径分析
主要用于研究交易网络中各交易节点之间的联系,利用最短路径算法寻找个体之间最直接的中介,交易之间的最短路径可以直接定位到非法交易。基于目前的路径分析算法,提出了以下方案。
图 13 资金流路径分析
图 14 最短路径
上图14可以根据两个非法交易节点的最短路径分析,可以很容易的找到路径上的其他非法交易节点。
往往合法的交易遵从成本最低和时间最短原则,不太可能具有较长的资金路径。所以根据路径分析可以找到一些重要的交易路径。
作者简介:大飞
算法工程师、知识搬运工、干货拾荒机
原创不易,如转载请注明出处,学习是一生的事业。
PS:投稿请添加微信
wuyuanzahuopu(五元杂货铺)