机器学习特征缩放的作用
作用
加快梯度下降法的收敛速度
什么是特征
例如我们要做房屋价格预测,暂时选取两个特征:房屋面积、卧室个数。
根据这两个特征的取值情况可以预估:房屋面积取值范围 (0,2000) 卧室个数(0,5)
初步感觉面积的值比卧室个数大很多,这样可能会造成训练过程的过分震荡,可能会使收敛速度变慢。
从等值线图也可以看的出来这样的结果。
当然最严谨的证明方法是数学证明法。
特征缩放
对同一特征进行等比例放大缩小,令 S为房屋面积,N为卧室个数
做变换 S := S / 2000 N := N / 5
变换后的 S∈(0,1) N∈(0,1)
那么这个过程就是特征缩放过程的一种示例,经过这样的变换后模型收敛花费的时间就会减少。
在实际的运用中会有各种各样的缩放方法
(1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里
(2)均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0
(3)标准化 / z值归一化(standardization / z-score normalization):将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进行 中心化 mean centering 处理,再除以标准差进行缩放)
(4)最大绝对值归一化(max abs normalization ):也就是将数值变为单位长度(scaling to unit length),将数值范围缩放到 [-1, 1] 区间里
(5)稳键标准化(robust standardization):先减去中位数,再除以四分位间距(interquartile range),因为不涉及极值,因此在数据里有异常值的情况下表现比较稳健