ML小白打卡第二天(补充)
如果假定给定的数据是线性可分的,这时候使用逻辑回归模型参数会变得无穷大。why?
下图中的上面一个坐标上的数据,是完全线性可分的,我们叫做线性可分;但是下面坐标上的圆圈和叉所表示的数据是不能完全分开的,肯定会存在一定的误差的,所以线性不可分,叫做非线性可分。这其中有个问题就是当给定的数据线性可分的时候,逻辑回归的参数会趋向于无穷大。
If data linearly separable , Then W goes to infinite
这是个重要的现象,在我们现实中的一些训练中会发生的,我们分3个方面讲: 1) 线性可分的定义 2) 为什么会发生这样的一个现象? 3) 通过什么样的方式可以把这个问题解决掉
- 线性可分的定义假定我们在做二分类的问题,假设我们使用逻辑回归的时候,我们可以通过一条线把数据完美的区分开,就是存在这样一条线,使得把两个分类完美的区分开,这样的话我们就说线性可分,对于三分类或者四分类也是一样的,如果有几条线可以把每个分类都完美的区分开,那也就是线性可分。
- 为什么线性可分会使W无穷大?(以逻辑回归二分类问题为例)如下图所示,我们有很多的线可以将坐标中正负样本很好的区分开,在下图这个问题上,逻辑回归的分类的准确率是百分之百的。
那我们要思考的是在这么多条可以用来区分的线中哪一条线是最适合的?什么是最适合的,就是通过我们逻辑回归的目标函数,看它会选择哪一条线。 我们回顾一下我们逻辑回归的条件概率公式:
在线性可分的情况下,使得逻辑回归的条件概率值变得越大越好,假设我们的样本是属于y=1这个类别的,那我们就希望p(y=1)这个条件概率变得越大越好,相反如果样本是属于y=0的,那我们也希望p(y=0)的概率越大越好。
做了一个简单的分析之后我们不难发现,垂直于x轴的线对于目标函数来说是最好的,可以使得条件概率的值最大,当W很大的时候p(y=1|x;w)趋向于等于1,这是最理想的情况。对于一个样本属于正样本,理想的情况,它的条件概率是趋向于1的。
通过这样一个性质,我们可以发现这么多线中最适合的是竖直的线,所以垂直于x轴的线是我们的模型会选出来的最理想的那条直线。 这条直线的特点是W非常大,就是W会趋向于无穷,这种现象我们称作过拟合现象。
一个模型,理想的情况下我们不应该选择W很大的,但是在我们训练的时候它反而给我们训练出一个比较复杂的模型,这个并不是我们想要的模型。 - 如何解决这个问题为了避免当数据可分的时候,W趋向于无穷的这样的一个现象,那我们如何去通过技术的手段去解决这样一个问题呢?这个会引出一个很重要的概念叫做正则(Regularization)
目标函数中加一个关于参数的L2范数。这会有效避免参数变得太大。
所以这里的L2范数可以理解为加入了参数的平方来控制参数不要变得太大。
L2范数相比其他的形态更易于计算,也更方便融合到梯度下降法里。
正则上我们一般都带有一个可控参数, 在这里用lambda来表示。它可以控制目标与正则之间的比重。这个值越大,正则占的比重会越大,这样一来参数值也会变得更小,反之变得更大。比如当lambda为0的时候,正则相当于没有起到作用,就回到无正则的情况。当lambda值为无穷大的时候,模型参数就会变成0。
这里的lambda我们把它称作超参数(hyperparamter),需要使用交叉验证来获得最合适的参数值。
一个模型存在过拟合现象的时候,它的参数会趋向于变大。
tip: