数据科学体系概述
整体思维导图如下:
关键点展开说明
1、根据变量类型统计分析
Statemodels 统计分析
2、描述性统计分类
a. 单一分类变量:统计频次 图形:条形图,饼图
b. 两个分类变量表分析:统计频次 图形:堆叠条形图
c.单连续变量(分类汇总):直方图
d. 两个分类标量汇总表:直方图
3、排序模型的评估指标
ROC曲线:描述模型分辨能力,对角线以上的图形越高模型越好
K-S曲线:用来描述模型对违约客户的分辨能力
累积提升曲线:由于展示使用模型预测结果与随机情况下获叏显性样本的 能力比较
洛伦兹曲线:用来描述预期违约客户的分布