python贷款还款预测
(学习)python贷款还款预测
贷款数据:https://pan.baidu.com/s/196a8C8Xs4OPsY3PVWc4UWQ
提取码:k8oo
代码:
https://pan.baidu.com/s/1jMuZCYgU9h2i_4PB5ByqcA
提取码:pvd7
导入数据
去掉全为NaN的列
选择我们需要的列
数据转换
输入的变量必须是量化的值,不能是字符串
数据清洗主要做数据类型的转换,以及处理缺失数据
采用针对矩阵的元素的函数实现
describe
数据探索
箱图
异常数据排除 比如箱线图的四分位
只取25%–75%的数据
相关性
特征和特征的关系
比如贷款量 分期付款的量 相关性 很大 合成一个 提高模型的准确性 和 效率
正相关的关系,相关性还是比较大的,比较好的办法是合并这些特征
合并方法 PCA
还款状态
哪些用户已经还完了贷款,用饼状图来表示
把被拒绝的数据合并
风险建模预测
30%的数据来测试模型是否准确
采用高斯朴素贝叶斯模型
模型预测可以给出概率的结果
返回概率最高的结果
把预测的结果和真实的结果比较
ps:另外的问题是样本集不均衡