DataWhale&天池-金融风控贷款违约预测-Task01赛题理解
一、赛题概况
本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction.
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。
本次赛事分为两个阶段,分别为正式赛及长期赛。
- 正式赛(9月5日 - 11月12日) 报名成功后,选手下载数据,在本地调试算法,通过赛题页左侧提交入口提交结果; 提交后将进行实时评测;每天每支队伍可提交2次;排行榜每小时更新,按照评测指标得分从高到低排序;排行榜将选择历史最优成绩进行展示; 最后一次排行榜更新时间为11月12日晚上20点,将以该榜单成绩作为依照,评选出正式赛期间的奖项名次,予以奖励。
- 长期赛(11月16日以后) 自11月16日开始,本场比赛将长期开放,报名和参赛无时间限制。
二、数据集介绍
- 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录
- 总数据量超过120w,包含47列变量信息,其中15列为匿名变量
- 为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B
- 同时会对employmentTitle、purpose、postCode和title等信息进行脱敏
字段 | 性质特征 |
---|---|
id | 为贷款清单分配的唯一信用证标识 |
loanAmnt | 贷款金额 |
term | 贷款期限(year) |
interestRate | 贷款利率 |
installment | 分期付款金额 |
grade | 贷款等级 |
subGrade | 贷款等级之子级 |
employmentTitle | 就业职称 |
employmentLength | 就业年限(年) |
homeOwnership | 借款人在登记时提供的房屋所有权状况 |
annualIncome | 年收入 |
verificationStatus | 验证状态 |
issueDate | 贷款发放的月份 |
purpose | 借款人在贷款申请时的贷款用途类别 |
postCode | 借款人在贷款申请中提供的邮政编码的前3位数字 |
regionCode | 地区编码 |
dti | 债务收入比 |
delinquency_2years | 借款人过去2年信用档案中逾期30天以上的违约事件数 |
ficoRangeLow | 借款人在贷款发放时的fico所属的下限范围 |
ficoRangeHigh | 借款人在贷款发放时的fico所属的上限范围 |
openAcc | 借款人信用档案中未结信用额度的数量 |
pubRec | 贬损公共记录的数量 |
pubRecBankruptcies | 公开记录清除的数量 |
revolBal | 信贷周转余额合计 |
revolUtil | 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额 |
totalAcc | 借款人信用档案中当前的信用额度总数 |
initialListStatus | 贷款的初始列表状态 |
applicationType | 表明贷款是个人申请还是与两个共同借款人的联合申请 |
earliesCreditLine | 借款人最早报告的信用额度开立的月份 |
title | 借款人提供的贷款名称 |
policyCode | 公开可用的策略_代码=1新产品不公开可用的策略_代码=2 |
n系列匿名特征 | 匿名特征n0-n14,为一些贷款人行为计数特征的处理 |
三、预测指标
竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。
(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )
TPR(召回率\敏感度):在所有实际为正例的样本中,被正确地判断为正例之比率。
T
P
R
=
T
P
T
P
+
F
N
TPR = \frac{TP}{TP + FN}
TPR=TP+FNTP
TNR(特异度):在所有实际为负例的样本中,被正确地判断为负例之比率。
T
N
R
=
T
N
F
P
+
T
N
TNR = \frac{TN}{FP + TN}
TNR=FP+TNTN
FPR(1-特异度):在所有实际为负例的样本中,被错误地判断为正例之比率。
F
P
R
=
F
P
F
P
+
T
N
FPR = \frac{FP}{FP + TN}
FPR=FP+TNFP
一般的ROC曲线图如下:
理解
假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。
出色的模型的AUC接近1,这意味着它具有良好的可分离性度量,较差的模型的AUC接近于0,这意味着它的可分离性度量最差。实际上,这意味着它正在回报结果。它预测0s但其实它是1s,1s但其实它是0s,当AUC为0.5时,表示模型没有类别分离能力。
理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,敏感度和特异度越大,效果越好。
通过ROC曲线评估分类器
我们可以说分类器1的分类效果好于分类器2。因为在相同的FPR的条件下,分类器1的TPR要高于分类器2的TPR。
但是如果出现了下面的情况:
我们此时没有办法直观的说明两个分类器那个更好一些,这种情况我们一般使用AUC的值来进行判断。AUC(Area Under ROC Curve)也就是直ROC曲线下面的面积,通常我们认为AUC值大的分类器性能较好
最佳阈值点选择
在实际使用中,ROC曲线上的最佳阈值点所对应的混淆矩阵将是我们计算敏感度(sensitivity)、特异度(specificity)以及准确度等指标的依据。那么ROC曲线上的哪一个点对应的阈值是最佳阈值点呢?通常情况下我们会通过约登指数(Youden index)进行选择。约登指数也称正确指数,是指敏感度和特异度之和减去1:
Youden index = Sensitivity + Specificity − 1
约登指数指数范围取值介于0-1之间,代表分类模型发现真正病人与非病人的总能力。约登指数越大,表示分类模型性能越好。约登指数的示意图如下:
图中的C表示最佳阈值点,红色线段J的长度表示约登指数的取值。