Python scikit-learn，数据的预处理，归一化，MinMaxScaler

数据的预处理：通过特定的统计方法（数学方法）将数据转换成算法要求的数据

数值型数据：标准缩放：归一化、标准化、缺失值处理

类别型数据(字典类型)：one-hot编码

时间类型：时间的切分(重采样)

为什么要归一化？ 归一化之后可以平衡各个特征的重要性。(例如在计算不同样本之间的距离时，归一化后可以避免某一个特征的重要性过大或过小)

归一化的缺点：归一化受异常点(最大值，最小值)的影响较大。归一化适用于精确小数据。

demo.py（scikit-learn，数据的预处理，归一化，MinMaxScaler）：

from sklearn.preprocessing import MinMaxScaler


# 归一化处理
mm = MinMaxScaler(feature_range=(2, 3))  # feature_range表示归一化后的区间范围 默认[0,1]之间
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])  # 二维数组

print(data)
'''
[[3.         2.         2.         2.        ]
 [2.         3.         3.         2.83333333]
 [2.5        2.5        2.6        3.        ]]

'''

Python scikit-learn，数据的预处理，归一化，MinMaxScaler

相关推荐