天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解

项目链接:https://tianchi.aliyun.com/competition/entrance/531830/information
一、赛题数据
赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
信息脱敏:指的是对某些敏感(通常是私密、不对外公开的)数据利用一些变换规则进行数据变形,从而保护原有数据,同时也可以利用变换后的数据进行数据挖掘。
信息如身份证、手机号、银行卡号等都可以作为信息脱敏的对象。
Q1:为什么要有两个测试集A、B?
Q2:15列的匿名变量是什么?该如何使用?
看下属性解释:
字段表
天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解
Q3:policyCode是什么意思?
下载相关数据文件:
一共有三个文件train.csv(训练集)、testA.csv(训练集)、sample_submit.csv(用于提交数据)
PS:发现训练集A和B的ID是一样的,所以没有两个训练集A、B,只是A用来预测,B用来写答案吧。
二、评测标准
提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。
关于AUC:之前看到有个博主写关于AUC的博文,写的挺生动,可以看看:
https://www..com/article/72161017942/
总结:特征太多,里面有些特征从人的角度上理解都没啥用,得删掉,还有那些神秘的匿名特征是什么东西,得搞搞清楚。