1.8 KNN算法学习——数据归一化处理解决量纲不同的问题
多个特征时,其中某个特征数量级较大,其他较小时最后的分类结果会被该特征所主导,而弱化了其他特征的影响,这是因为各个特征的量纲不同所致,需要将数据进行归一化
解决方案:将所有的数据映射到同一尺度
#归一化方式一:最值归一化
把所有的数据映射到0~1之间
适用于有明显的边界,受outlier极端值影响较大,比如收入的分布
#归一化方式二:均值-方差归一化
把所有数据归一到均值为0方差为1的分布中
归一化实现过程
多个特征时,其中某个特征数量级较大,其他较小时最后的分类结果会被该特征所主导,而弱化了其他特征的影响,这是因为各个特征的量纲不同所致,需要将数据进行归一化
解决方案:将所有的数据映射到同一尺度
#归一化方式一:最值归一化
把所有的数据映射到0~1之间
适用于有明显的边界,受outlier极端值影响较大,比如收入的分布
#归一化方式二:均值-方差归一化
把所有数据归一到均值为0方差为1的分布中
归一化实现过程