天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解

项目链接：https://tianchi.aliyun.com/competition/entrance/531830/information
一、赛题数据
赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
信息脱敏：指的是对某些敏感（通常是私密、不对外公开的）数据利用一些变换规则进行数据变形，从而保护原有数据，同时也可以利用变换后的数据进行数据挖掘。
信息如身份证、手机号、银行卡号等都可以作为信息脱敏的对象。
Q1:为什么要有两个测试集A、B?
Q2:15列的匿名变量是什么？该如何使用?
看下属性解释：
字段表
天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解
Q3:policyCode是什么意思？
下载相关数据文件：
一共有三个文件train.csv(训练集）、testA.csv(训练集）、sample_submit.csv(用于提交数据）
PS:发现训练集A和B的ID是一样的，所以没有两个训练集A、B,只是A用来预测，B用来写答案吧。
二、评测标准
提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果（越大越好）。
关于AUC:之前看到有个博主写关于AUC的博文，写的挺生动，可以看看：
https://www..com/article/72161017942/
总结：特征太多，里面有些特征从人的角度上理解都没啥用，得删掉，还有那些神秘的匿名特征是什么东西，得搞搞清楚。

天池比赛——零基础入门金融风控-贷款违约预测Task1:赛题理解

相关推荐