第三周周报
第三周周报
在上一次课上,我们学习了数据预处理的一些知识,因此,我在上一周的时间里,对所给的数据,进行了一些研究。
1. 数据处理
1.1
1.1.1 只有单一值的数据
python的nunique可以用于判断数据是否单一值,最后测试出policyCode只有单一值。
1.2 数据类别
1.2.2 一些连续型变量的分布
债务收入比:
贷款金额:
年收入:
1.2.3 一些离散型变量
subGrade:
employmentLength:
homeOwnership:
经过对变量的分析,我们可以删除掉一些单一值的列,或者一些基本偏向某一值的列,并且,对于非数字型的值,如subgrade,我们需要将其数字化,如其中共有35个subgrade,我就可以将其映射到0-34,另外,雇佣时间等非数值型变量,也需要进行数字化,这就是数据预处理的手段之一。
2. 数据特征
可以从提供的数据集中,挖掘出一些更有利于我们进行分类的信息。
2.1
由于银行本身会对用户的偿付能力进行评估,因此,对于不同信用等级的用户,其违约率自然不同,不同等级的违约率如下:
可以看出,信用等级越高,违约率越低。
2.2
而从贷款目的上来看,可以发现,虽然没有信用等级上有显著的不同,但基于不同目的的贷款,其违约率也不同:
根据提供的数据,可以从中获得更多的信息,找出更多的关联,便于我们更有效地捕获数据集中的信息。
3. 实践工作
在上一周中,我对数据中的一些非数值数据进行了转换,并采用了新的模型,我采用了lightgbm模型,对数据进行训练与测试,目前正尝试进一步优化参数。