Coursera机器学习笔记 第3周 第六章 逻辑回归(一)
第六章 逻辑回归(Logistic Regression)(一)
第1节 分类和表示(Classification and Representation)
6.1 分类问题
参考视频:6 - 1 - Classification (8 min).mkv
在分类问题中,你要预测的变量y是离散的,我们将学习一种叫做逻辑回归(Logistic Regression)的算法,这是目前最流行使用最广泛的一种学习算法。
在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。比如:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;区别一个肿瘤是恶性的还是良性的。
我们从二元的分类问题开始讨论:将因变量(dependant variable)可能属于的两个类分为(负向类,负类,negative class)和(正向类,正类,positive class),则因变量类。
如上图,我们可以用线性回归算法来解决一个分类问题:当假设函数,预测,即正向类;当,预测,即负向类。但是,线性回归中假设函数的输出值可能远大于1或远小于0,这种输出值让人感觉很奇怪,要是所有的输出值能固定在0到1之间就好了。
我们接下来要研究的算法叫做逻辑回归算法,它的输出值永远在0到1之间,这个算法是监督学习的分类算法。
6.2 假说表示
参考视频 : 6 - 2 - Hypothesis Representation (7 min).mkv
本节展示假设函数的表达式,也就是说,在分类问题中,要用什么函数来表示我们的假设,这个函数的性质是它的输出值要在0和1之间。
我们引入一个新的模型,逻辑回归,该模型的输出变量范围始终在0和1之间。该模型的假设是:
合起来,我们得到逻辑回归模型的假设为:
的作用是:对于给定的输入变量,根据选择的参数计算出预测值的可能性(estimated probablity),即,。例如,如果对于给定的,通过已经确定的参数计算出,则表示对于给定的预测值有70%的几率为正向类,30%的几率为负向类。这一点需要牢记!
6.3 判定边界
参考视频 : 6 - 3 - Decision Boundary (15 min).mkv
现在讲一下决策边界(decision boundary)的概念。这个概念能更好地帮助我们理解逻辑回归的假设函数在计算什么。
在逻辑回归中,我们预测:
- 当时,预测
- 当时,预测
根据上面绘制出的S形函数图像,我们知道:
- 当时,
- 当时,
- 当时,
又因为,即:
- 大于等于0,预测(把等于0的情况归到正向类中)
- 小于0,预测
现在假设我们有一个模型:并且参数是向量,当 大于等于0,即大于等于3时,模型将被预测。
我们可以绘制直线,这条线便是我们模型的分界线,将预测为1的区域和预测为0的区域(正向类和负向类的区域)分隔开。如下图:
假使我们的数据呈现这样的分布情况,什么样的模型才适合呢?
因为需要用曲线才能分隔的区域和的区域,我们需要二次方特征:模型为,其中参数,则我们得到的边界恰好是圆心在原点半径为1的圆形。