机器学习之特征工程{数据降微}
在数据预处理之后进行
这里的维度指的是特征值的数量,与pandas的维度不同。
方式有两种:特征选择 主成分分析
特征选择
原因:
1.冗余:部分特征的相关度高,容易消耗计算机性能
2.噪声:部分特征对预测结果有负面影响
概念:
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值。但是选择后的维度一定比选择前小,毕竟我们只选择了其中的一部分特征。
主要有三种方式:Filter(过滤式):VarianceThreshold 【Variance方差】
Embedded(嵌入式):正则化,决策树
Wrapper(包裹式)
过滤式只通过每个特征的方差大小考虑
API: sklearn.feature_selection.VarianceThreshold
主成分分析(PCA)
比如:如何最好的对一个立体的物体二维表示
本质:PCA是一种分析,简化数据集的技术
目的:是多维数压缩,尽可能降低原数据的维度(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量
n_components 可以是小数或是整数,小数常用百分数来表示(0-1) 90%~95% ; 整数表示信息量降到多少,一般使用小数
补充一个pandas的知识:交叉表
pd.crosstab(行标签,列标签)