关于SVM学习问题-outline松弛问题的理解(异常点)
SVM详见下文
https://blog.****.net/v_july_v/article/details/7624837
今天主要又拿到相关的问题,重新review了一下关于outline的部分。
1.3章节
定义函数间隔(用表示)为:
从上述函数间隔和几何间隔的定义可以看出:几何间隔就是函数间隔除以||w||,而且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|,只是人为定义的一个间隔度量,而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。
为样本x到超平面的距离
在此表达式中,可转达为 = ||w|| * (x-x0)/w 即最大化所有参数的
之和,可视作最大化||w||
(其实||w||和之间没有本质区别,只是一个单位转换,即为1.3、函数间隔Functional margin与几何间隔Geometrical margin 所描述)
||w||为w的二阶范数,是单位向量。
二阶范数指矩阵A的2范数,就是A的转置共轭矩阵与矩阵A的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离。类似于求棋盘上两点间的直线距离。
2.3章节主要从拉格朗日乘子角度进行阐述。可以参见下文。即这个算法同样潜在要求”凸优化“的前置条件,当凸优化不存在时可能得到局部最优解。
https://zhuanlan.zhihu.com/p/55532322
是一个参数,用于控制目标函数中两项(“寻找 margin 最大的超平面”和“保证数据点偏差量最小”)之间的权重。注意,其中
是需要优化的变量(之一),而
是一个事先确定好的常量。完整地写出来是这个样子:
即允许存在部分偏差值。
吴恩达网课对此部分的表述是:
即可以看到,两者的表述其实是非常类似的。
从这个视角来看,我们可以发现其实还是吴恩达的更好理解一些。
在吴恩达文档中的thetaj即为||w||(2-范数),而即为SVM函数中的loss值(如果大部分数值都是符合预期的,则yf(x)=0;只有极少部分非0的项目会被求和。
也就是说,当存在个别loss点时,是可以被容忍的。只要这一情况下可以取得代偿性的更小的theta的值或者消除了其他loss点
1.如果消除了其他loss点(即第一项变小),说明除异常点以外的一部分点的thetaT·x部分变小(标准优选策略,3.4章节最小二乘法)
2.如果是theta变小(且第一项不变或变大):因为|f(x)|即为每个x到分割线的距离,在X不变的情况下theta变小了,进而导致了部分第一项从0变成非0,可以理解为其实际分界margin变大(即部分点从分界线以外进入到了分界线以内,被视作异常点(含刚才讨论的个别loss点),但其他非loss点的实际margin变大了)
~~~另一种数学视角解释是:
在标准模型下:吴恩达第一项为0(全部在margin以外),当允许松弛时,1/||w||即为margin的一半,是需要我们最大化的。为了让1/||w||更小(margin),我们接受了第一项的增大
另注:吴恩达ppt中未描述 松弛变量的取值限制问题。