1.说明

从2开始编号的原因是与书本一致。
第一章节引入与介绍数据科学导引就不写上来了。

2.数据预处理

2.1特征编码

有的数据分析模型需要的特征为数值型，而原始数据包含非数值型特征，进行特征编码转换。

数字编码

简单地对特征值进行从小到大地整数编码。

如特征“收入水平”={贫困，低收入，小康，中等收入，富有}→{0，1，2，3，4}

缺点：给特征引入了次序关系，不利于建模分析

One-Hot编码

将包含K个值的特征转换成K个二元取值的新特征
数据科学导引欧高炎重点知识一

如“收入水平”={贫困，低收入，小康，中等收入，富有}→“收入水平贫困”，“收入水平低收入”，“收入水平小康”，“收入水平中等收入”，“收入水平富有”。

然后每个特征的取值是0或1
缺点：特征维数增多，后面步骤一般要降维处理。增加了特征之间的相关性

哑变量编码

将包含K个值的特征转换成K-1个二元取值的新特征
数据科学导引欧高炎重点知识一

哑变量编码和One-Hot有点像，只是将有一个“原值”的取值编为0000，如图表2.1和2.2
这样解决了相关性问题。

2.2缺失值处理

原因

调查者不愿意
数据整合过程引起

删除法

1.删除样本
某些样本存在多个缺失的特征值（行）
2.删除特征
某些特征存在多个缺失的值（列）

缺点：删除了大量有效信息，产生资源浪费。

均值填补

先计算特征非缺失值的平均数或众数，用来代替缺失值。
对于连续型特征，常用平均值。
对于离散~，用众数。

缺点：使数据过分集中在平均数或众数上，忽略特征之间的相关性。
比如年龄和入学年份这两个特征，18岁入学年份基本上都是2018年，如果用均值（假如2015年）填入缺失的入学年份，就错了。

随机填补

在均值填补的基础上加上一个随机项。

1.贝叶斯方法

数据科学导引欧高炎重点知识一

2.近似贝叶斯

数据科学导引欧高炎重点知识一

基于模型的填补

基本思想是将特征缺失值作为预测目标，将特征的非缺失值用来构造训练集。训练分类模型或者回归模型。最后预测出缺失值。
具体步骤类似建模过程。

哑变量方法

将缺失值作为一个特殊值来处理。

例如，特征“性别“={男，女}，有缺失值则”性别“={男，女，unknown}

EM方法

具体后面章节会介绍

2.3数据标准化

原因

目标函数往往假设特征均值在0附近且方差齐次
缩小样本的特征之间的量纲

Z-score标准化

标准化后的数据具有固定的均值和标准差
$f^{'}_i=\frac{f_i-\mu}{\sigma}$
其中 $f_i$ 为原特征值， $\mu$ 为均值， $\sigma$ 为标准差。
在统计学中意义为标准分数。

Min-Max标准化

标准化后的数据取值分布在(0,1)区间上
$f^{'}_i=\frac{f_i-f_{min}}{f_{max}-f_{min}}$
下面进行扩展，标准化后的取值分布在(a,b)上
$f^{'}_i=\frac{f_i-f_{min}}{f_{max}-f_{min}}(b-a)+a$

小数定标标准化

标准化后的数据特征取值绝对值总是小于1
$f_i = \frac{f_i}{10^j}$
j是满足 $max\{f^{'}_1,f^{'}_2,... ,f^{'}_n\}<0$ 的最小整数

例如，特征取值范围[-3075,2187]，特征取值绝对值最大值为3075，则j为4

Logistic标准化

标准化后的数据，取值在0附近的将被光滑映射到[0,1]区间，不在0附近的特征取值将被放在0和1上
$f_i = \frac{1}{1+e^{-f_i}}$
数据科学导引欧高炎重点知识一

2.4不同标准化方法的对比

Z-score适用于最大值最小值未知，样本分布比较离散的情况
Min-Max适用于最大值最小值已知且固定的情况，当最大最小变化时，需要重新标准化
小数定标适用于数据分散的情况，特别是分布在多个数量级的时候。如果最大绝对值变化，也要重新标准化
Logistic适用于数据分布集中，且在0附近的情况。对数据分布离散的数据处理不佳

2.5特征离散化

基于算法对数据的要求，常常要把连续型特征转化为离散型的特征

等距离散化

连续型特征取值区间k等分。

缺点：受极端值（离群值，异常值）影响非常大。

等频离散化

解决等距中分段后样本量分布不均的问题，不在要求区段长度一致

缺点：容易将同样或者类似的样本分进不同的区段，使得相邻区段数据相似性高。

聚类离散化

运用聚类的思想，同一个簇中样本相似性高，不同簇样本差异性高。
步骤：
1.运用聚类算法如K-Means（后面章节会具体说明）把样本依据该特征的分布划分成簇。
2.决定是否进一步进行簇的分类或者合并。
3.确定分切点和区间个数。

信息增益离散化

运用决策树模型信息增益的评价标准（后面章节详细说明）。放上步骤，不懂的先不看。
数据科学导引欧高炎重点知识一

其它

卡方离散化-ChiMerge方法
类别属性相互依赖最大化

2.6离群值检测

拉依达准则（3 $\sigma$ 准则）

假定数据服从正太分布
超过三倍标准差的数据为异常值。

K近邻

选择一个数据的k个相邻数据，计算距离。
重复上步计算出每个数据的，排序，选出比较大的作为异常值。

缺点：计算量大，得到全局异常值而非局部异常值。
如图，x1为全局异常值，k近邻会识别，x2为局部异常值，k近邻不会识别。
数据科学导引欧高炎重点知识一

局部离群因子算法（LOF）

结论：
局部离群因子>1，则代表该样本的局部可达密度小于其近邻样本，该样本可能是离群值。

局部离群因子<1或接近1，正常。

数据科学导引欧高炎重点知识一

数据科学导引欧高炎重点知识一

数据科学导引重点知识

1.说明

2.数据预处理

2.1特征编码

数字编码

One-Hot编码

哑变量编码

2.2缺失值处理

原因

删除法

均值填补

随机填补

1.贝叶斯方法

2.近似贝叶斯

基于模型的填补

哑变量方法

EM方法

2.3数据标准化

原因

Z-score标准化

Min-Max标准化

小数定标标准化

Logistic标准化

2.4不同标准化方法的对比

2.5特征离散化

等距离散化

等频离散化

聚类离散化

信息增益离散化

其它

2.6离群值检测

拉依达准则（3σ\sigmaσ准则）

K近邻

局部离群因子算法（LOF）

相关推荐

拉依达准则（3 $\sigma$ 准则）