6.项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理 ?

6.项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理 ?
答:
归一化的目的是处理不同规模和量纲的数据,时期缩放到相同的数据区间和范围,以减少规模、特征、分布差异对模型的影响。

6.项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理 ?

  • Max-Min(线性归一化)
Max-Min归一化是对原始数据进行线性变化,利用变量取值的最大值和最小值将原始数据转换为某一范围的数据。缺点是尤其其归一化过程仅与该变量的最大值和最小值有关,容易受到极端取值的影响。会一定程度上破坏原有的数据结构。
  • MAXAbs
该方法的缩放区间为[-1,1],不破坏原有数据分布结构,适合处理稀疏数据
  • Z-Score标准化
基于原始数据的均值和标准差进行标准化。Z-Score是一种中心化方法,会改变原有数据的分布结构,不适合对稀疏数据做处理。
虽然该方法在标准化过程中利用了所有的数据信息,但是在标准化之后的数据各变量均值相同,标准差也相同(均值为0,方差为1),消除了各变量在变异程度的差异,使得转换后的各变量在聚类分析中的重要性程度是相等的。而实际分析中,经常根据各变量在不用单位件取值的差异程度大小来决定在分析中的重要性程度,差异程度打的其分析权重也较大。
  • RobustScaler
如果数据中有离群点,对数据进行Z-Score标准化的效果并不理想,因为异常点特征王万在标准化滞后便容易失去离群特征,可以使用RoubustScaler对离群点进行标准化查理,该方法对聚聚中心化和数据缩放的健壮性有更强的参数控制能力。

分析:
进行归一化之后,每个维度都是去量钢化的,避免了不用量纲的选取对距离计算产生的巨大影响。在分类、聚类算法、数据符合正态分布中,需要使用距离来度量相似性是、或者使用PCA技术进行降维的时候,Z-Score表现更好。在不涉及距离度量、协方差计算、数据不太符合正态分布时,可以使用第一种方法或其他方法。
不需要归一化:
概率模型(决策树)不需要归一化,因为他们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像SVM、线性回归之类的最优化问题需要归一化。归一化之后加快了梯度下降求最优解的速度,并有可能提高精度。