PART 3.1 风控建模卡方分箱步骤详解篇

最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂

风控建模卡方分箱步骤详解篇

这是我第一次使用****文章,希望将很多事情做到细致和极致,也希望真的可以给大家带来帮助

客观讲,卡方检验逻辑简单,

  1. 基于四个表计算卡方值,
  2. 通过自由度,置信度得到该条件下的卡方值
  3. 基于四个表卡方值与实际操作进行比对,对实际结果进行比对,是否有显著区别

风控建模分箱流程图

很多博客很客观的讲,代码的问题不多讲述,基本都是以代码讲解,大部分都是复制,不具备可读性,这里细致讲解一下:
风控建模中前期的数据预处理中,分箱占极大一块,但是现有讲解十

卡方分箱实际调优变量

卡方分箱调优变量总结下来包括7个:

  1. 单变量占比 :分箱前检查,如果比重太大(比如高于90%),则分箱意义不大
  2. 缺失值占比 :分箱前检查,如果缺失值过多,则分箱意义不大
  3. 空值占比 :与2实际完全一致,用法不同,是进行分箱时,需要基于空值比例决定是否单独一箱,
    比如空值数据极少,可以并入一箱
    空值在风控建模中个人觉得会基于比例去判断是否单独一箱,填充方式也各有不同,但是建议基于数据本身特点,独立一箱,不做填充
  4. 变量类型
    连续变量 比如 收入 年龄
    有序分类变量 比如 学历 职位
    无序分类变量 比如 省份
  5. 最大分箱数 一般变量分箱都是最大箱数是 5箱
  6. 单箱占比 分箱后,如果单箱占比过大,其实意义不大,建议不参与建模
  7. 单调性检验 单调性检验实际上适用于结果的分析
  8. 最优分箱数 基于实际卡方值,如果单箱不显著,可以做相关的合并处理,但实际上,不建议过分采用这个方式,因为这对于后期建模来讲相对苛刻,因为后期会有变量IV筛选,二者的作用其实有一定的重复性,具体可根据实际做参考

卡方分箱思维导图

这是风控建模实际卡方分箱流程图:
步骤如下

  1. 对初始数据进行判断:单变量标准以及变量缺失标准检测
  2. 对无序分类型变量基于Bad_Rate进行排序转化,有序分类变量,合理顺序转化
  3. 所有数据均处理为连续数据,可作为下一步分箱
  4. 基于空值占比判断是否需要单独分箱
  5. 最大分箱数设置,合并方式:min卡方值
  6. 单调性检验(OK下一步,NO最大分箱-1)
  7. 单箱占比检测不满足条件 合并分箱
    PART 3.1 风控建模卡方分箱步骤详解篇这是建模导图,后续代码,仍在优化当中,敬请期待!

最重要的事情最后都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂