金融风控任务学习笔记-Task2

Task2 数据分析

2.1 学习目标

1.学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
2.学习了解变量间的相互关系、变量与预测值之间的存在关系
3.完成相应学习打卡任务

项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction

2.2 内容介绍

1.数据总体了解:

  • 读取数据集并了解数据集大小,原始特征维度;
  • 通过info熟悉数据类型;
  • 粗略查看数据集中各特征基本统计量;

2.缺失值和唯一值:

  • 查看数据缺失值情况
  • 查看唯一值特征情况

3.深入数据-查看数据类型

  • 类别型数据
  • 数值型数据
    • 离散数值型数据
    • 连续数值型数据

4.数据间相关关系

  • 特征和特征之间关系
  • 特征和目标变量之间关系

5.用pandas_profiling生成数据报告

2.3 代码示例

金融风控任务学习笔记-Task2
金融风控任务学习笔记-Task2
金融风控任务学习笔记-Task2
金融风控任务学习笔记-Task2
金融风控任务学习笔记-Task2
金融风控任务学习笔记-Task2金融风控任务学习笔记-Task2