吴恩达机器学习笔记--第三周-1.分类与逻辑回归

week3-1.Classification and Representation


一、Classification

二分类(binary classification):
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
根据阈值(threshold)确定类别。
如果用线性回归(linear regression),一个异常值(最右边的点)的存在可能会在很大程度上影响分类方式。所以不建议用线性回归。
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
可能出现h(x)<0或>1的情况,为了避免这种情况发生,需要使用逻辑回归(logistic regression)。

二、Hypothesis Representation

吴恩达机器学习笔记--第三周-1.分类与逻辑回归
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
逻辑回归(logistic regression)的由来——逻辑函数(logistic function)
当z趋近于+无穷时,g(z)趋近于1;当z趋近于-无穷时,g(z)趋近于0.
逻辑回归中的假设函数h(x)的表达式:
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
意思是:在给定参数theta的情况下,对于一个特征值x,有h(x)=P(y=1|x;theta)的概率确定这个数据点应该被归位y=1的类中。

三、Decision Boundary

吴恩达机器学习笔记--第三周-1.分类与逻辑回归
由图像知,当theta'*x>=0时,预测y=1;当theta'*x<0时,预测y=0。
吴恩达机器学习笔记--第三周-1.分类与逻辑回归
假设参数为theta0=-3,theta1=theta2=1。
决策边界(decision boundary)即为h(x)=0.5所对应的直线。它是假设函数h(x)=g(theta0+theta1x1+theta2x2)的属性(取决于其中的theta参数),而不是数据集的属性(即theta值不变就算换数据集,决策边界还是不变)。
决策边界的确定办法:将theta参数带入g,即theta'*x,然后令其=0(>0则y=1,<0则y=0)。
复杂的非线性决策边界:
吴恩达机器学习笔记--第三周-1.分类与逻辑回归