IV值与WOE-二元分类特征的选择

一、应用场景

WOE(weight of evidence)和IV(Information Value)主要用来判断变量的预测强度,比如判断用户收入对用户是否会发生逾期的预测强度。因此,两个值的使用主要是在有监督的分类问题中,具体可以细化到如下方面:

指导变量离散化。

在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15])会对模型产生不同影响。因此,可以根据指标所反应的预测强度,调整变量离散化结果。(对一些取值很多的分类变量,在需要时也可以对其进行再分组,实现降维。)

变量筛选。

我们需要选取比较重要的变量加入模型,预测强度可以作为我们判断变量是否重要的一个依据。

二、WOE

IV值与WOE-二元分类特征的选择
P(yi)代表第i组中,违约样本占所有违约样本的比例;

P(ni)代表第i组中,未违约样本占所有未违约样本比例;

y:所有违约样本数;

n:所有未违约样本数。

可知,WOE取值为全体实数,且在大于0部分,WOE越大表示分组中存在违约样本可能性越大(正向作用),小于0部分,WOE越小则越表示了一种反向作用。因此,WOE反映了自变量取值对目标变量的影响。
IV值与WOE-二元分类特征的选择
以savings变量取A61时为例,对应的woe=ln((217/300)/(386/700))。WOE没有考虑分组中样本占整体样本的比例,如果一个分组的WOE值很高,但是样本数占整体样本数很低,则对变量整体预测的能力会下降。因此,我们还需要计算IV值。

三、IV

IV值与WOE-二元分类特征的选择
计算了一个变量各个组的 IV 值之后,我们就可以计算整个变量的 IV 值:
IV值与WOE-二元分类特征的选择
IV值与WOE-二元分类特征的选择

四、经验参考表

IV值与WOE-二元分类特征的选择
由表我们可以知道,并不是IV值越大越好,当IV值大于0.5时,我们需要对这个特征打个疑问,因为它过于太好而显得不够真实。通常我们会选择IV值在0.10.5这个范围的特征。可能不同场景在取值的细节上会有所不同,比如某些风控团队会将IV值大于0.05的特征也纳入考虑范畴,而学术界则有观点认为选择0.10.3这个范围会更好。