特征工程中的归一化问题

特征工程中的「归一化」有什么作用？ - 微调的回答 - 知乎 https://www.zhihu.com/question/20455227/answer/370658612

本文主要摘自知乎问题中微调童鞋的答案，侵删。

首先，我们需要明白三个问题：

数据缩放的本质是什么
不同数据缩放的区别
如何选择不同的缩放方法

我们从定义入手：

归一化（normalization）：
标准化（standardization）：

其中特征工程中的归一化问题和代表样本的均值和标准差，为最大值，为最小值。

1. 归一化和标准化本质上都是一种线性变换

先看归一化，在数据给定的前提下，令常数特征工程中的归一化问题，常数，那么归一化的新的形式就是。在这种改写后下，易发现和标准化形式类似，因为在数据给定后和也可看做常数。

因此可以再稍微变形一下：特征工程中的归一化问题（公式1）

就发现事实上就是对向量特征工程中的归一化问题 按照比例压缩再进行平移 。所以归一化和标准化的本质就是一种线性变换。

举个简单的例子：

原始数据：，其中， ,
归一化：代入公式1，将压缩4倍并平移，得到，最终有
标准化：与归一化类似，略

2. 线性变化的性质

线性变换有很多良好的性质，这些性质决定了为什么对数据进行改变后竟然不会造成“失效”，反而还能提高数据的表现。拿其中很重要的一个性质为例，线性变化不改变原始数据的数值排序。

下面举个栗子:

from sklearn import preprocessing 
from scipy.stats import rankdata 
x = [[1], [3], [34], [21], [10], [12]] 
std_x = preprocessing.StandardScaler().fit_transform(x) n
orm_x = preprocessing.MinMaxScaler().fit_transform(x) 
# print(std_x) 
# print(norm_x) 
print('原始顺序 ：', rankdata(x)) 
print('标准化顺序：', rankdata(std_x)) 
print('归一化顺序：', rankdata(norm_x))

发现两种处理方法都不会改变数据的排序。对很多模型来说，这个性质保证了数据依然有意义，顺序性不变，而不会造成了额外的影响。说白了，只是因为线性变换保持线性组合与线性关系式不变，这保证了特定模型不会失效。

特征工程中的归一化问题