金融风控任务学习笔记-Task2
Task2 数据分析
2.1 学习目标
1.学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
2.学习了解变量间的相互关系、变量与预测值之间的存在关系
3.完成相应学习打卡任务
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
2.2 内容介绍
1.数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
- 粗略查看数据集中各特征基本统计量;
2.缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
3.深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
4.数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
5.用pandas_profiling生成数据报告