1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

多个特征时,其中某个特征数量级较大,其他较小时最后的分类结果会被该特征所主导,而弱化了其他特征的影响,这是因为各个特征的量纲不同所致,需要将数据进行归一化

解决方案:将所有的数据映射到同一尺度

#归一化方式一:最值归一化

把所有的数据映射到0~1之间

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

适用于有明显的边界,受outlier极端值影响较大,比如收入的分布

#归一化方式二:均值-方差归一化

把所有数据归一到均值为0方差为1的分布中

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

归一化实现过程

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题

1.8 KNN算法学习——数据归一化处理解决量纲不同的问题