Hinge loss
# 基础 The Hinge Loss 定义为 E(z) = max(0,1-z),在图中是蓝色的线所表示的那个,the Log Loss 为红色的线所表示,而 the Square Loss 是绿色 the misclassification error 用黑色表示。
Figure 1
看到 y 应当是分类器决策函数的“原始”输出,而不是最终的类标。例如,在线性的 SVM 中
扩展
尽管 SVM 常常被采用 1 v all 或者 1v1 的方式扩展到 multiclass classification中 [2],事实上还有一种“真正的”多类 Hinge loss 版本,由Crammer and Singer,[3]提出, 在[4]中给出定义了。
在 结构化推断structured prediction中,hinge loss 可以被更远地扩展到结构话输出空间上。采用下面的变体的间隔重形变技术的Structured SVMs ,其中 y 表示 SVM 的参数, φ 是联合特征函数, 而 Δ 是 Hamming loss:
优化
Hinge loss 是一个 凸函数, 所以很多常用的凸优化技术都可以使用。不过它是不可微的, 只是有subgradient
所以人们多采用平滑后的版本进行优化,例如二次平滑
在这篇文章中 Zhang 提出这样的想法。[5] [Modified Huber loss] 是这个 loss function 的特例 [5],其中