第三周周报

第三周周报

在上一次课上,我们学习了数据预处理的一些知识,因此,我在上一周的时间里,对所给的数据,进行了一些研究。

1. 数据处理

1.1

1.1.1 只有单一值的数据

python的nunique可以用于判断数据是否单一值,最后测试出policyCode只有单一值。

1.2 数据类别

1.2.2 一些连续型变量的分布

债务收入比:
第三周周报
贷款金额:

第三周周报
年收入:
第三周周报

1.2.3 一些离散型变量

subGrade:
第三周周报

employmentLength:
第三周周报

homeOwnership:
第三周周报

经过对变量的分析,我们可以删除掉一些单一值的列,或者一些基本偏向某一值的列,并且,对于非数字型的值,如subgrade,我们需要将其数字化,如其中共有35个subgrade,我就可以将其映射到0-34,另外,雇佣时间等非数值型变量,也需要进行数字化,这就是数据预处理的手段之一。

2. 数据特征

可以从提供的数据集中,挖掘出一些更有利于我们进行分类的信息。

2.1

由于银行本身会对用户的偿付能力进行评估,因此,对于不同信用等级的用户,其违约率自然不同,不同等级的违约率如下:
第三周周报
可以看出,信用等级越高,违约率越低。

2.2

而从贷款目的上来看,可以发现,虽然没有信用等级上有显著的不同,但基于不同目的的贷款,其违约率也不同:
第三周周报

根据提供的数据,可以从中获得更多的信息,找出更多的关联,便于我们更有效地捕获数据集中的信息。

3. 实践工作

在上一周中,我对数据中的一些非数值数据进行了转换,并采用了新的模型,我采用了lightgbm模型,对数据进行训练与测试,目前正尝试进一步优化参数。