数据预处理

1.数据质量分析

数据质量分析是数据预处理的前提,其主要任务是检查原始数据中心是否存在脏数据,脏数据一般指不符合要求以及不能直接进行相应分析的数据。脏数据包含以下内容:
1)缺失值
2)异常值
3)不一致值
4)重复数据以及含有特殊符号(如#、¥、*)的数据

2.数据特征分析

数据特征分析要求我么在数据挖掘建模之前,通过频率分布、对比分析、帕累托分析、周期性分析、相关性分析等方法对采集的样本数据的特征规律进行分析,了解数据的规律和趋势。

3.数据预处理

数据预处理一方面是要提高数据的质量,另一方面是要让数据更好的适应特定的挖掘技术或工具。数据预处理内容主要包括数据清洗、数据集成、数据变换和数据规约。其具体方法如下图所示:
数据预处理