金融申请评分卡概念的介绍

目前金融申请评分卡主要使用在一些互联网金融企业和保险银行机构，主要用来解决目前金融机构存在的信用风控问题。

1、信用违约风险的控制手段

从最早的有抵押无规则→无抵押有规则→数据模型，形成了目前在风控领域的基本风控脉络；现今主要采用基于数据驱动建立的风控模型，主要就是目前应用最广泛最多的评分卡模型，评分卡模型主要由分为四种，即：

评分卡模型
申请评分卡
行为评分卡
催收评分卡
反欺诈评分卡

其中最重要的就是金融申请评分卡，目的是把风险控制在贷前的状态；也就是减少交易对手未能履行约定契约中的义务而造成经济损失的风险，里面由包括了个人违约、公司违约、主权违约，这里仅仅只讲到个人违约；

2、个贷中常用的违约定义

M3&M3+逾期：
这个是最主要的指标，其他指标例如债务重组、个人破产、金融机构主动注销账户、其他相关的违法行为在个贷方面的考虑均不需要过度关注，判断是否逾期主要根据M3&M3+逾期来判断。
其他概念性指标：
M0：最后缴款日的第二天到下一个账单日；
M1：M0时段的延续，即在未还款的第二个账单日到第二次账单的最后缴款日之间；
M2：M1的延续，即在未还款的第三个账单日到第二个账单的最后缴款日之间；

3、行业内的一些案例

趣店

趣店CEO罗敏：“凡是过期不还的，我们这里就是坏账，我们的坏账，一律不会催促他们来还钱。电话都不会给他们打。你不还钱，就算了，当作福利送你了”

这方面就反应了趣店对自己的贷前风控非常有把握，同时也说明在前期趣店的利率较高，另外一个方面，因为目前的消费贷场景上，一般贷款的金额较少，追贷成本高，必须要把风控争取控制在贷前。

陆金所CEO表示在2015年11月，行业的坏账率大概在15%-20%之间，2016年1月，已经下降到了13%-17%。

4、评分卡概念

评分卡模型主要有以下这么几个概念：

以分数的形式来衡量，这个分数主要根据客户的好坏比来确定；
是对未来一段时间内违约/逾期/失联概率的预测
有一个明确的正区间
通常分数越高越安全
数据驱动
主要的评分卡模型在互联网金融方面的表现形式是：申请评分卡、反欺诈评分卡、行为评分卡、催收评分卡。
其中申请评分卡、反欺诈评分卡使用在申请环节，行为评分卡使用在监控环节，催收评分卡使用在逾期管理环节。

4.1、申请评分卡

申请评分卡用在申请环节，以申请者在申请当日及过去的信息为基础，预测未来放款后的逾期或者违约的概率。
开发申请评分卡的目的有：

可以做风险控制：借贷生命周期的第一个关口就可以把控住优质客户
营销：做好优质客户的识别

我们一般预测未来放款后的逾期，这个未来的时间段，在我工作经历当中，一般是一年左右，时间更长就是用行为评分卡，或许在银行等大型机构，因为收集的信息更全面，在评分方面的要求不一样，可能对未来的预测时间也不一样，或许时间会更长。

4.2、申请评分卡的特性

优秀的评分卡应该具备的特性：
1. 稳定性：当总体逾期/违约概率不变，分数的分步也应该没有改变
2. 区分性：违约人群与正常人群的分数应当有显著的差异，具体如下图所示：
金融申请评分卡（1）
3. 预测能力：低分人群的违约率更高
4. 和逾期概率等价：评分应该可以精准地反应违约/逾期概率，反之亦然

4.3、申请评分卡的开发流程

启动：场景、对象、目的
数据准备与预处理：账户、客户、内部和外部数据的汇集抽取和清洗
模型构建：基本就是逻辑回归，也可能用到集成学习（随机森林是集成学习的特例）
模型的评估：区分度、预测性、平稳性（看分数的分步情况）
验证/审计：是否有计算错误、逻辑错误、业务错误
模型部署：开发环境→生产环境、容量、并发度
模型监控：模型性能是不是比较稳定

备注一下：
截止目前，看到的评分卡模型基本都是用逻辑回归开发的，优点比较多，稳定和解释性强，解释性强因为在对比其他分数期间，逻辑回归相对是有多个可加项，可具体比较，SVM就基本做不到，缺点是对数据质量的要求非常高，需要在数据预处理方面花很多的时间，模型的简单但是开发成本并不低；决策树模型方面，对数据质量要求低，也比较容易解释，但是模型的准确度不高；组合模型方面，部署比较麻烦，在评分卡方面应用不是很多。

4.4申请评分卡一般需要的字段

个人信息：学历性别收入
负债能力：在申请的金融机构或者其他金融机构的负债情况（例如月还债金额超过月收入的60%，说明负债较高），例如多投信息等
消费能力：商品购买记录，出境游，奢侈品消费
历史信用记录：历史逾期行为
其他数据：个人交际、网络足迹、个人财务等

备注：客户还款能力*还款意愿 = 还款等级

这里我提供一份数据，其中字段如下：

字段	名称
member_id	ID
loan_amnt	申请额度
term	产品期限
int_rate	利率
emp_length	工作期限
home_ownership	是否有自有住宅
annual_inc	年收入
verification_status	收入核验状态
desc	描述
purpose	贷款目的
title	贷款目的描述
zip_code	联系地址邮政编码
addr_state	联系地址所属州
delinq_2yrs	申贷日期前2年逾期次数
inq_last_6mths	申请日前6个月咨询次数
mths_since_last_delinq	上次逾期距今月份数
mths_since_last_record	上次登记公众记录距今的月份数
open_acc	征信局中记录的信用产品数
pub_rec	公众不良记录数
total_acc	正在使用的信用产品数
pub_rec_bankruptcies	公众破产记录数
earliest_cr_line	第一次借贷时间
loan_status	贷款状态—目标变量

5、评分卡经常遇到的问题

在评分卡模型中，经常遇到的问题就是非平衡样本的问题。在一个样本里面，坏的样本很少或者好的样本很少，导致了数据的不平衡。在处理数据不平衡样本中，一般有三种办法：

过采样：方法简单，就是对少的那一部分样本进行重复采样，并且操作简单，对数据质量的要求也低；缺点是容易造成模型的过拟合（例如坏好比例为1：99，为了增大坏的比例，多次采样，将比例调整到10：99，这样非常容易导致模型过拟合）；
欠采样：优点和过采样类似，缺点是容易造成模型的欠拟合；
SMOTE：优点是不易过拟合，能够保留大量的信息，缺点是不能对缺失值和类别变量做处理。

SMOTE算法原理：

采样最近邻算法，计算出每个少数类样本的K个同类近邻；
从K个同类近邻中随机挑选N个样本进行随机线性插值；
构造新的少数类样本：
$N e w = X_{i} + r a n d (0, 1) * (y_{j} - x_{i}), j = 1, 2, 3, 4..... N$
其中 $X_{i}$ 为少类中的一个观测点， $Y_{j}$ 为K个近邻中随机抽取的样本
将新样本与原数据合成，产生新的训练集

例子：选取了一个 $X_{1}$ 为年龄为22岁，月收入为8000元，则 $X_{1} = （ 22 ， 8000 ）$ ，选取了一个近邻点为 $X_{2}$ ， $X_{2} = (28, 5000)$ ，随机系数为0.5，计算逻辑为 $22 + (28 - 22) * 0.5 = 25, 8000 + (5000 - 8000) * 0.5 = 6500$ ，这样得到的一个新的 $X_{3}$ 点为 $(25, 6500)$ 。

金融申请评分卡（1）