【数据应用案例学习】(一)—— 基于用户画像的腾讯大数据防刷架构
参考 https://blog.****.net/u013382288/article/details/80537167
【业务问题描述】:
随着电商行业的迅速发展,各类创业公司层出不穷,这必然伴随着推广活动,优惠卷补贴以及其他获取用户、培养用户消费习惯的活动方式。
但是俗话说得好,Every coin has two sides, 一旦伴随着利益,任何事都会存在利弊,为了做宣传推广,提供了高额补贴的优惠卷,吸引更多的顾客,但是也会滋生一些不法分子——“羊毛党”,他们的存在会影响正常用户的体验及本该享受的资源与好处,因此需要通过一些手段对这类型的“用户”进行侦测,从而为电商减少运营成本,为顾客提供更优质的服务。
【逻辑分析】:
【目标确定】:
遏制刷单的三个环节:
【算法建模】:
【思路】:对账号进行风险评估,包含两个方面(正常账号、异常账号)
- 采用黑/白双分类风险判定机制,减少对正常用户的误伤
a. 黑分类器判断异常的概率,白分类器判断属于正常的概率
b. 如某个IP是恶意IP,但是如果这是大网关IP,上面可能会有一些正常用户(即降低 β类错误)
【模型】:“三个诸葛亮顶个臭皮匠”
- 如果使用单一的分类器,那么在面对不同“羊毛党”,可能出现某种把控力度高,而有些不足等情况,因此需要具体问题,具体分析,不能一刀切
- 针对不同账号类型建立不同的分类器,然后用AdaBoost方法集成。这样可以提高实际运行时的灵活性,比如某个平台虚假账号集中在手机部分,策略上可以加大对手机账号的打击力度。同时子问题划分方式可以将不同账号类型之间的正负数据平衡性问题纳入考虑范围之内
- 对于单个账号类型,可以使用多个弱分类器bagging的方法集成
【特征选取】
- 腾讯用户画像——IP画像举例
1)画像维度:
a. 网络属性:代理IP、v*n IP、网关IP、服务器IP
b. 地域属性:国外IP、IP归属地、高危地区
c. 业务属性:登录腾讯业务、登录的腾讯用户量
d. 恶意属性:DDOS IP、腾讯业务作弊IP
2)举例:识别代理IP:
a. 反向探测技术:扫描IP是不是开通了80,8080等代理服务器经常开通的端口,显然一个普通的用户IP不太可能开通如上的端口。
b. HTTP头部的X_Forwarded_For:开通了HTTP代理的IP可以通过此法来识别是不是代理IP;如果带有XFF信息,该IP是代理IP无疑。
c. Keep-alive报文:如果带有Proxy-Connection的Keep-alive报文,该IP毫无疑问是代理IP。
d. 查看IP上端口:如果一个IP有的端口大于10000,那么该IP大多也存在问题,普通的家庭IP开这么大的端口几乎是不可能的。
通过业务建模,识别恶意IP,然后通过上述方法判断是否是代理IP
【扩展其他类似任务的特征选取】
- 商家特征:商家历史销量、信用、产品类别、发货快递公司
- 用户行为:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
- 环境特征(主要是避免机器刷单):地区、ip地址、设备型号
【实际使用】
- 对于白用户:正常访问、下单、抢券
- 对于轻度恶意用户:验证码
- 对于重度恶意用户:语音验证码、人工核实、后台取消订单等