读《python数据挖掘与分析实战》之五
接上一篇
异常值处理
在数据预处理,异常值是否剔除,需视具体情况而定,因为异常值可能蕴含着有用的信息
将含有异常值的记录直接删除的方法简单易行,但缺点也很明显,在观测值很少的情况下,这种删除会造成样本量不足,可能会改变变量的原有分布从而造成分析结果的不确定,视为缺失值处理的好处是可以利用现有变量的信息,对异常值进行填补
数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存在一个一致的数据存储(如数据仓库)中的过程。
在数据集成时,来自多个数据源的现实世界实体的表达形式时不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换,提炼和集成。
实体识别
实体识别是指从不同数据源识别现实世界的实体,它的任务是统一不同源数据的矛盾
常见形式:1.同名异义,2.异名同义,3.单位不统一
冗余属性识别
冗余:1.同一属性多次出现,2.同一属性命名不一致导致重复
有些冗余属性可以用相关分析检测
数据变换
数据变换主要是对数据进行规范化处理,将数据转换成“适当性”形式,以使用于挖掘任务及算法的需要
常用的变换包括平方,开方,取对数,差分运算
使用这些简单的函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据。在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。