【天池】金融风控数据挖掘task1

天池金融风控数据挖掘task1

1.赛题理解

赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

2.赛题流程

【天池】金融风控数据挖掘task1

3. 评价指标

3.1 分类算法常用

1)混淆矩阵、2)准确率(Accuracy)、精确率(Precision)、召回率(Recall)
3)F1指数、4)P-R曲线、5)AUC(包围的面积)、6)ROC(真正例率和假正例率作为横纵轴)

3.2 金融风控主题预测常用

1)KS(Kolmogorov-Smirnov)
K-S曲线与ROC曲线类似,不同在于

  1. ROC曲线将真正例率和假正例率作为横纵轴
  2. K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
    公式如下:
    KS = max(TPR - FPR)
    KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果
    KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,
    但此对应不是唯一的,只代表大致趋势。
  3. KS值<0.2,一般认为模型没有区分能力。
  4. KS值[0.2,0.3],模型具有一定区分能力,勉强可以接受
  5. KS值[0.3,0.5],模型具有较强的区分能力。
  6. KS值大于0.75,往往表示模型有异常。
    除KS外还常用ROC和AUC