机器学习中的损失函数
损失函数是用来估量模型中预测值f(x) 与真实值Y 不一致的程度,是一个非负实数,通常使用L(Y,f(x)) 来表示。是结构风险函数的重要组成部分。结构风险函数包括经验风险项和正则项。
前面的均值函数表示的是经验风险函数,L代表损失函数,后面为正则或者惩罚项,可以是L1也可以是L2,或者其他的正则函数。整个式子表示的意思是找到是目标函数最小的值。
常用:
Hinge loss:SVM
cross Entropy loss/softmax:logistic 回归和softmax分类
square loss: 最小二乘法
exponential loss: Adaboost 集成学习算法
其他损失; 0-1 损失
1 log 对数损失函数(逻辑回归)
逻辑回归中,样本服从伯努利分布(0-1分布),经验风险函数为最小化似然函数..损失函数L(Y,P(Y|X)) 表达的意思是利用已知得样本分布,找到最有可能的导致这种分布的参数值,
如果是二分类的话,m等于2,如果是多分类,m 是类别的总个数。
2 平方损失函数(最小二乘法,Ordinary Least Squares)
线性回归的一种,OLS 将问题转化成了一个凸优化的问题,这里用中心极限定理假设样本和噪声都服从高斯分布,可以通过极大似然估计推导出最小二乘式子,原则是最优拟合直线应该是使各点到回归直线的距离和最小的直线,距离是欧几里得距离。选择该距离有以下几个原因:
简单,计算方便;欧式距离是一种很好的相似行度量标准;在不同的表示域变换后特征性质不变。
等于最小化残差平方和
3 指数损失函数(Adaboost)
Adaboost 是前向分布加法算法的特例,是一个加和模型。
在Adaboost模型中经过m次迭代后,可以得到:
。Adaboost 每次迭代时的目的是为了找到最小化下列式子时的参数和G:
4 Hinge 损失函数(SVM)
线性支持向量机中,最优化问题可以等价于下列式子:
前半部分是hinge损失函数,后面相当于L2 正则项。
4种核函数可以选择,对应的是-t 参数:
0-线性核;1-多项式核;2-RBF 核;3-sigmoid 核
5 其他损失函数
0-1 损失函数:
绝对值损失函数:
L(Y,f(X))=|Y-f(x)|
总结:参数越多,越容易过拟合。