数据探索(一)之数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般是指不符合要求以及不能直接就行应用分析的数据。脏数据包括:缺失值、异常值、不一致的值、重复数据以及含有特殊符号(#、¥、*)的数据。


1.缺失值分析

  缺失值是指某个记录的缺失或者记录中的某个字段信息的缺失,如某小区居住人员信息统计数据中的某些居民数据的缺失或者某位居民数据中年龄或性别的缺失。
  缺失值产生的原因主要有三点:1.有些信息暂时获取不到。2.有些信息由于人为的原因遗漏或者设备故障而丢失。3.属性值不存在,在某些情况下,缺失值并不意味着数据有错误。对一些对象来说,某些属性值是不存在的,如一个未婚者的配偶说明,一个儿童的固定收入。
  缺失值将会是数据挖掘建模所表现出的不确定性更加显著,规律更加难以把握。


2.异常值分析

异常值分析是检测数据是否有录入错误,是否含有不合理的数据。异常值是指样本中的个别值,其数据明显偏离其他的观测值。异常值也成为离群点,异常值分析也成为离群点分析。

1.简单统计量分析

可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。即用描述数据统计特征的一些指标如:平均值(mean)、标准差(std)、最小值(min)、最大值(max)、1/4、1/2、3/4分位数。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理范围,如客户年龄的最大值为199岁,则判断该变量的取值异常。


2.3σ原则

在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴
三σ原则即为
  数值分布在(μ—σ,μ+σ)中的概率为0.6826
  数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
  数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
  可以认为,Y 的取值几乎全部集中在(μ—3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%.

如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。因为距离平均值3σ之外的值出现盖伦小于等于0.003,属于极个别的小概率事件。

数据探索(一)之数据质量分析
3.箱型图分析

箱型图是反应一组数据的某些特征的图。包括 上四分位数(数据探索(一)之数据质量分析 ):表示观察值中有四分之一数据取值比它大; 下四分位数(数据探索(一)之数据质量分析):表示全部观察值中有四分之一数据比它小;均值、上界、下届、中位数、离群点。
箱型图提供了一个识别异常值的标准:异常值被定义为小于数据探索(一)之数据质量分析 -1.5*IQR(下界)或大于数据探索(一)之数据质量分析+1.5*IQR(上界)的值。IQR为四分位数间距,是上四分位数和下四分位数之差,其间包含了全部观察值的一半。
箱型图依据实际数据绘制,对数据没有任何限制性要求;箱型图判断异常值是以四分位数和四分位间距为基础,四分位数具有一定鲁棒性:即靠近下半部的百分之25数据与靠近上半部的百分之25的数据可以任意大小,对整体判断不产生影响,即不会严重扰动四分位数。这是箱型图的优越性。
数据探索(一)之数据质量分析
圆圈为离群点;上图是某企业销售数据的箱型图,其中超过上下界的七个日销售额数据可能为异常值。


3.一致性分析

数据不一致性是指数据的矛盾性、不相容性。主要发生在数据集成过程中,可能是由于被挖掘数据来自不同的数据源、对于重复存放的数据未能进行一致性更新造成的。例如:两张表中都存储了用户的电话号码,但在用户的电话号码发生改变时,只更新了一张表的数据。这两张表就有了不一致的数据。