数据科学导引欧高炎重点知识一
数据科学导引重点知识
1.说明
从2开始编号的原因是与书本一致。
第一章节引入与介绍数据科学导引就不写上来了。
2.数据预处理
2.1特征编码
有的数据分析模型需要的特征为数值型,而原始数据包含非数值型特征,进行特征编码转换。
数字编码
简单地对特征值进行从小到大地整数编码。
如特征“收入水平”={贫困,低收入,小康,中等收入,富有}→{0,1,2,3,4}
缺点:给特征引入了次序关系,不利于建模分析
One-Hot编码
将包含K个值的特征转换成K个二元取值的新特征
如“收入水平”={贫困,低收入,小康,中等收入,富有}→“收入水平贫困”,“收入水平低收入”,“收入水平小康”,“收入水平中等收入”,“收入水平富有”。
然后每个特征的取值是0或1
缺点:特征维数增多,后面步骤一般要降维处理。增加了特征之间的相关性
哑变量编码
将包含K个值的特征转换成K-1个二元取值的新特征
哑变量编码和One-Hot有点像,只是将有一个“原值”的取值编为0000,如图表2.1和2.2
这样解决了相关性问题。
2.2缺失值处理
原因
- 调查者不愿意
- 数据整合过程引起
删除法
1.删除样本
某些样本存在多个缺失的特征值(行)
2.删除特征
某些特征存在多个缺失的值(列)
缺点:删除了大量有效信息,产生资源浪费。
均值填补
先计算特征非缺失值的平均数或众数,用来代替缺失值。
对于连续型特征,常用平均值。
对于离散~,用众数。
缺点:使数据过分集中在平均数或众数上,忽略特征之间的相关性。
比如年龄和入学年份这两个特征,18岁入学年份基本上都是2018年,如果用均值(假如2015年)填入缺失的入学年份,就错了。
随机填补
在均值填补的基础上加上一个随机项。
1.贝叶斯方法
2.近似贝叶斯
基于模型的填补
基本思想是将特征缺失值作为预测目标,将特征的非缺失值用来构造训练集。训练分类模型或者回归模型。最后预测出缺失值。
具体步骤类似建模过程。
哑变量方法
将缺失值作为一个特殊值来处理。
例如,特征“性别“={男,女},有缺失值则”性别“={男,女,unknown}
EM方法
具体后面章节会介绍
2.3数据标准化
原因
- 目标函数往往假设特征均值在0附近且方差齐次
- 缩小样本的特征之间的量纲
Z-score标准化
标准化后的数据具有固定的均值和标准差
其中为原特征值,为均值,为标准差。
在统计学中意义为标准分数。
Min-Max标准化
标准化后的数据取值分布在(0,1)区间上
下面进行扩展,标准化后的取值分布在(a,b)上
小数定标标准化
标准化后的数据特征取值绝对值总是小于1
j是满足的最小整数
例如,特征取值范围[-3075,2187],特征取值绝对值最大值为3075,则j为4
Logistic标准化
标准化后的数据,取值在0附近的将被光滑映射到[0,1]区间,不在0附近的特征取值将被放在0和1上
2.4不同标准化方法的对比
- Z-score适用于最大值最小值未知,样本分布比较离散的情况
- Min-Max适用于最大值最小值已知且固定的情况,当最大最小变化时,需要重新标准化
- 小数定标适用于数据分散的情况,特别是分布在多个数量级的时候。如果最大绝对值变化,也要重新标准化
- Logistic适用于数据分布集中,且在0附近的情况。对数据分布离散的数据处理不佳
2.5特征离散化
基于算法对数据的要求,常常要把连续型特征转化为离散型的特征
等距离散化
连续型特征取值区间k等分。
缺点:受极端值(离群值,异常值)影响非常大。
等频离散化
解决等距中分段后样本量分布不均的问题,不在要求区段长度一致
缺点:容易将同样或者类似的样本分进不同的区段,使得相邻区段数据相似性高。
聚类离散化
运用聚类的思想,同一个簇中样本相似性高,不同簇样本差异性高。
步骤:
1.运用聚类算法如K-Means(后面章节会具体说明)把样本依据该特征的分布划分成簇。
2.决定是否进一步进行簇的分类或者合并。
3.确定分切点和区间个数。
信息增益离散化
运用决策树模型信息增益的评价标准(后面章节详细说明)。放上步骤,不懂的先不看。
其它
- 卡方离散化-ChiMerge方法
- 类别属性相互依赖最大化
2.6离群值检测
拉依达准则(3准则)
假定数据服从正太分布
超过三倍标准差的数据为异常值。
K近邻
选择一个数据的k个相邻数据,计算距离。
重复上步计算出每个数据的,排序,选出比较大的作为异常值。
缺点:计算量大,得到全局异常值而非局部异常值。
如图,x1为全局异常值,k近邻会识别,x2为局部异常值,k近邻不会识别。
局部离群因子算法(LOF)
结论:
局部离群因子>1,则代表该样本的局部可达密度小于其近邻样本,该样本可能是离群值。
局部离群因子<1或接近1,正常。