数据科学导引欧高炎重点知识一

1.说明

从2开始编号的原因是与书本一致。
第一章节引入与介绍数据科学导引就不写上来了。

2.数据预处理

2.1特征编码

有的数据分析模型需要的特征为数值型,而原始数据包含非数值型特征,进行特征编码转换。

数字编码

简单地对特征值进行从小到大地整数编码。

如特征“收入水平”={贫困,低收入,小康,中等收入,富有}→{0,1,2,3,4}

缺点:给特征引入了次序关系,不利于建模分析

One-Hot编码

将包含K个值的特征转换成K个二元取值的新特征
数据科学导引欧高炎重点知识一

如“收入水平”={贫困,低收入,小康,中等收入,富有}→“收入水平贫困”,“收入水平低收入”,“收入水平小康”,“收入水平中等收入”,“收入水平富有”。

然后每个特征的取值是0或1
缺点:特征维数增多,后面步骤一般要降维处理。增加了特征之间的相关性

哑变量编码

将包含K个值的特征转换成K-1个二元取值的新特征
数据科学导引欧高炎重点知识一

哑变量编码和One-Hot有点像,只是将有一个“原值”的取值编为0000,如图表2.1和2.2
这样解决了相关性问题。

2.2缺失值处理

原因

  1. 调查者不愿意
  2. 数据整合过程引起

删除法

1.删除样本
某些样本存在多个缺失的特征值(行)
2.删除特征
某些特征存在多个缺失的值(列)

缺点:删除了大量有效信息,产生资源浪费。

均值填补

先计算特征非缺失值的平均数或众数,用来代替缺失值。
对于连续型特征,常用平均值。
对于离散~,用众数。

缺点:使数据过分集中在平均数或众数上,忽略特征之间的相关性。
比如年龄和入学年份这两个特征,18岁入学年份基本上都是2018年,如果用均值(假如2015年)填入缺失的入学年份,就错了。

随机填补

在均值填补的基础上加上一个随机项。

1.贝叶斯方法

数据科学导引欧高炎重点知识一

2.近似贝叶斯

数据科学导引欧高炎重点知识一

基于模型的填补

基本思想是将特征缺失值作为预测目标,将特征的非缺失值用来构造训练集。训练分类模型或者回归模型。最后预测出缺失值。
具体步骤类似建模过程。

哑变量方法

将缺失值作为一个特殊值来处理。

例如,特征“性别“={男,女},有缺失值则”性别“={男,女,unknown}

EM方法

具体后面章节会介绍

2.3数据标准化

原因

  1. 目标函数往往假设特征均值在0附近且方差齐次
  2. 缩小样本的特征之间的量纲

Z-score标准化

标准化后的数据具有固定的均值和标准差
fi=fiμσf^{'}_i=\frac{f_i-\mu}{\sigma}
其中fif_i为原特征值,μ\mu为均值,σ\sigma为标准差。
在统计学中意义为标准分数。

Min-Max标准化

标准化后的数据取值分布在(0,1)区间上
fi=fifminfmaxfminf^{'}_i=\frac{f_i-f_{min}}{f_{max}-f_{min}}
下面进行扩展,标准化后的取值分布在(a,b)上
fi=fifminfmaxfmin(ba)+af^{'}_i=\frac{f_i-f_{min}}{f_{max}-f_{min}}(b-a)+a

小数定标标准化

标准化后的数据特征取值绝对值总是小于1
fi=fi10jf_i = \frac{f_i}{10^j}
j是满足max{f1,f2,...,fn}<0max\{f^{'}_1,f^{'}_2,... ,f^{'}_n\}<0的最小整数

例如,特征取值范围[-3075,2187],特征取值绝对值最大值为3075,则j为4

Logistic标准化

标准化后的数据,取值在0附近的将被光滑映射到[0,1]区间,不在0附近的特征取值将被放在0和1上
fi=11+efif_i = \frac{1}{1+e^{-f_i}}
数据科学导引欧高炎重点知识一

2.4不同标准化方法的对比

  • Z-score适用于最大值最小值未知,样本分布比较离散的情况
  • Min-Max适用于最大值最小值已知且固定的情况,当最大最小变化时,需要重新标准化
  • 小数定标适用于数据分散的情况,特别是分布在多个数量级的时候。如果最大绝对值变化,也要重新标准化
  • Logistic适用于数据分布集中,且在0附近的情况。对数据分布离散的数据处理不佳

2.5特征离散化

基于算法对数据的要求,常常要把连续型特征转化为离散型的特征

等距离散化

连续型特征取值区间k等分。

缺点:受极端值(离群值,异常值)影响非常大。

等频离散化

解决等距中分段后样本量分布不均的问题,不在要求区段长度一致

缺点:容易将同样或者类似的样本分进不同的区段,使得相邻区段数据相似性高。

聚类离散化

运用聚类的思想,同一个簇中样本相似性高,不同簇样本差异性高。
步骤:
1.运用聚类算法如K-Means(后面章节会具体说明)把样本依据该特征的分布划分成簇。
2.决定是否进一步进行簇的分类或者合并。
3.确定分切点和区间个数。

信息增益离散化

运用决策树模型信息增益的评价标准(后面章节详细说明)。放上步骤,不懂的先不看。
数据科学导引欧高炎重点知识一

其它

  • 卡方离散化-ChiMerge方法
  • 类别属性相互依赖最大化

2.6离群值检测

拉依达准则(3σ\sigma准则)

假定数据服从正太分布
超过三倍标准差的数据为异常值。

K近邻

选择一个数据的k个相邻数据,计算距离。
重复上步计算出每个数据的,排序,选出比较大的作为异常值。

缺点:计算量大,得到全局异常值而非局部异常值。
如图,x1为全局异常值,k近邻会识别,x2为局部异常值,k近邻不会识别。
数据科学导引欧高炎重点知识一

局部离群因子算法(LOF)

结论:
局部离群因子>1,则代表该样本的局部可达密度小于其近邻样本,该样本可能是离群值。

局部离群因子<1或接近1,正常。

数据科学导引欧高炎重点知识一

数据科学导引欧高炎重点知识一