Datawhale 零基础入门数据挖掘-打卡day·3
Datawhale 零基础入门数据挖掘-特征工程
图片来源请点这里
到今天,我已经不再挣扎于理解代码。打算深入学习理论知识,后续打好Python基础后再认真研究代码。
一、名称解释
1.特征及特征工程
特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。
特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。原文链接:https://blog.****.net/joycewyj/article/details/51647036
2.特征工程处理的意义
基于更准确地特征可以创建更简单的模型,更简单的模型它的性能也就更好,所需的计算时间也就越短。
3.特征工程主要包含特征构造、特征提取、特征选择。
特征构造指的是从原始数据构造新特征的处理过程,一般需要 根据业务分析 ,生成能更好体现业务特性的新特征。特征构造仍然是对数据的变换,像这次打卡学习,对二手车交易价格预测就要搜集些二手车价格相关的数据了。
特征抽取指的是从原始数据抽取新特征。抽取的目的是将多维的或相关的特征降低到低维,以提取主要信息或生成与目标相关性更高的信息。
特征选择是指对特征进行一定的选择。通过原始数据抽取出的的特征并不都是“平等”的,通过一些判断将与问题无关的特征移除,对模型表现影响很大的一些特征保留。
二、特征处理
1.常见的特征工程包括:
a.异常处理
- 通过箱线图(或 3-Sigma)分析删除异常值;
- BOX-COX 转换(处理有偏分布);
- 长尾截断;
b.特征中心化、标准化、归一化
中心化:把数据整体移动到以0为中心点的位置。将数据减去这个数据集的平均值。
标准化:把整体的数据的中心移动到0,数据再除以一个数。在数据中心化之后,数据再除以数据集的标准差。
归一化:把数据的最小值移动到0,再除以数据集的最大值。对这个数据集的每一个数减去min,然后除以极差。
左边是原始数据的分布情况、中间是经过中心化的分布情况、右边是经过标准化后的情况
左边是原始数据的分布情况、中间是经过中心化的分布情况、右边是经过标准化后的情况
标准化、中心化、归一化