Python scikit-learn,数据的预处理,归一化,MinMaxScaler
数据的预处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据
数值型数据:标准缩放:归一化、标准化、缺失值处理
类别型数据(字典类型):one-hot编码
时间类型:时间的切分(重采样)
为什么要归一化? 归一化之后可以平衡各个特征的重要性。(例如在计算不同样本之间的距离时,归一化后可以避免某一个特征的重要性过大或过小)
归一化的缺点:归一化受异常点(最大值,最小值)的影响较大。 归一化适用于精确小数据。
demo.py(scikit-learn,数据的预处理,归一化,MinMaxScaler):
from sklearn.preprocessing import MinMaxScaler
# 归一化处理
mm = MinMaxScaler(feature_range=(2, 3)) # feature_range表示归一化后的区间范围 默认[0,1]之间
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]) # 二维数组
print(data)
'''
[[3. 2. 2. 2. ]
[2. 3. 3. 2.83333333]
[2.5 2.5 2.6 3. ]]
'''