机器学习-标准化(standardization)、归一化(normalization)、正则化(regularization)以及规范化

规范化:

针对数据库:

规范化把关系满足的规范要求分为几级,满足要求最低的是第一范式(1NF),再来是第二范式、第三范式、BC范式和4NF、5NF等等,范数的等级越高,满足的约束集条件越严格。

针对数据:

数据的规范化包括归一化/标准化/正则化,是一个统称(也有人把标准化作为统称)。
数据规范化是数据挖掘中的数据变换的一种方式,数据变换将数据变换或统一成适合于数据挖掘的形式,将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间内,如[-1, 1]或[0, 1]

对属性值进行规范化常用于涉及神经网络和距离度量的分类算法和聚类算法当中。比如使用神经网络后向传播算法进行分类挖掘时,对训练元组中度量每个属性的输入值进行规范化有利于加快学习阶段的速度。对于基于距离度量相异度的方法,数据归一化能够让所有的属性具有相同的权值。
数据规范化的常用方法有三种:最小最大值规范化,z-score标准化和按小数定标规范化

归一化(Normalization)

核心是限定在[0,1]之内

主要算法:

1.线性转换
min-max normalization,又叫最小最大规范的方法(常用方法)
机器学习-标准化(standardization)、归一化(normalization)、正则化(regularization)以及规范化
Mean normalization
机器学习-标准化(standardization)、归一化(normalization)、正则化(regularization)以及规范化
2. 对数函数转换
y=log10_{10}(x)

3.反余切函数转换
y=atan(x)*2/PI

应用:

1.无量纲化
·例如房子数量和收入,从业务层知道这两者的重要性一样,所以把它们全部归一化,这是从业务层面上作的处理。
·归一化可以消除量纲对最终结果的影响,使不同变量具有可比性。比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,归一化之后就不会有这样的问题。
2.避免数值问题
不同的数据在不同列数据的数量级相差过大的话,计算起来大数的变化会掩盖掉小数的变化。
3.一些模型求解的需要
例如梯度下降法,如果不归一化,当学习率较大时,求解过程会呈之字形下降。学习率较小,则会产生直角形路线,不管怎么样,都不会是好路线(路线解释看西面归一化和标准化的对比)。解释神经网络梯度下降的文章。
4.时间序列
进行log分析时,会将原本绝对化的时间序列归一化到某个基准时刻,形成相对时间序列,方便排查。
5.收敛速度
加快求解过程中参数的收敛速度。

特点:

A、对不同特征维度进行伸缩变换
B、改变原始数据的分布,使得各个特征维度对目标函数的影响权重归于一致(使得扁平分布的数据伸缩变换成类圆形)
C、对目标函数的影响体现在数值上
D、把有量纲表达式变为无量纲表达式

好处:

提高迭代求解的收敛速度
提高迭代求解的精度

机器学习-标准化(standardization)、归一化(normalization)、正则化(regularization)以及规范化

缺点:

最大值与最小值非常容易受异常点影响
鲁棒性较差,只适合传统精确小数据场景

标准化(Standardization)

数据的标准化是将数据按比例缩放。

主要方法:

1 .z-score标准化
即零-均值标准化(常用方法)
机器学习-标准化(standardization)、归一化(normalization)、正则化(regularization)以及规范化
是一种统计的处理,基于正态分布的假设,将数据变换为均值为0、标准差为1的标准正态分布。但即使数据不服从正态分布,也可以用此法。特别适用于数据的最大值和最小值未知,或存在孤立点。

2 .小数定标标准化
y=x/10^j (j确保max(|y|)<1)
通过移动x的小数位置进行标准化

3.对数Logistic模式
y=1/(1+e^(-x))

特点:

对不同特征维度的伸缩变换的目的是使其不同度量之间的特征具有可比性,同时不改变原始数据的分布。

好处:

1、改变原始数据的分布,保持各个特征维度对目标函数的影响权重
2、目标函数的影响体现在几何分布上
3、在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景

标准化与归一化区别

首先,都是用于特征缩放
原理上:
标准化适合大数据或量纲差异不大(不会出现一个大数样本主导)
归一化是解决数据权重不一致,影响定性分析时用。

用途上:
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化(Z-score standardization)表现更好。
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

正则化(regularization)

正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果后面要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

Normalization主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

p-范数的计算公式:||X||p=(|x1|p{^p} + |x2|p{^p}+…+|xnp{^p})1/p^{1/p}

该方法主要应用于文本分类和聚类中。