吴恩达机器学习-第六章个人笔记

6、1分类算法简介

分类的场景:
①邮件:垃圾邮件/非垃圾邮件
②肿瘤:良性/恶性
③网上交易:欺诈/非欺诈
分类一般用0和1来表示:0表示负分类(良性肿瘤),1表示正分类(恶性肿瘤)。(其实0和1表示的类别是随意的,只要相对应就好)
吴恩达机器学习-第六章个人笔记

6、2logistic regerssion假设函数

logistic regerssion:
想要0<=h θ \theta θ(x)<=1,
则h θ \theta θ(x)=g( θ \theta θTx)
其中g(z)=1/(1+e-z)图像如下:
吴恩达机器学习-第六章个人笔记
这个函数称为Logistic函数或者Sigmoid函数。

这里h θ \theta θ(x)表示y=1的概率,即h θ \theta θ(x)=P(y=1|x; θ \theta θ),例如在肿瘤预测中h θ \theta θ(x)=0.7表示这个肿瘤有70%的概率是恶性的。

6、3决策边界

决策界限:
吴恩达机器学习-第六章个人笔记
决策边界不是训练集所决定的,而是由假设函数以及假设参数的取值所决定的。

6、4代价函数

线性回归代价函数:
吴恩达机器学习-第六章个人笔记

logistic regression代价函数:
吴恩达机器学习-第六章个人笔记

6、5简化代价函数以及梯度下降

简化代价函数:
吴恩达机器学习-第六章个人笔记
梯度下降算法:
吴恩达机器学习-第六章个人笔记
这里我们会发现 θ \theta θ的偏导数和线性回归中的一致:
吴恩达机器学习-第六章个人笔记
但是logistic regression 和linear regression的h θ \theta θ(x)不一样,所以梯度变换并不完全一样。

logistic regression也可以和linear regression一样用向量同时更新所有的 θ \theta θ;也可以使用特征缩放来提高收敛速度

6、6高级优化算法(自行掌握)

除了梯度下降之外的其他方法:
①conjugate gradient
②BFGS(共轭梯度法)
③L-BFGS

这些算法优缺点:
吴恩达机器学习-第六章个人笔记
其中自动寻找最优 α \alpha α的方法是线内搜索法。

6、7多类别分类算法

举例:
邮件:家庭邮件(y=1),工作邮件(y=2),朋友邮件(y=3)。

二元分类和多类别分类:
吴恩达机器学习-第六章个人笔记
n个类别分类:此时每次把一种类别当做正类别,其余类别均为负类别,得到n个分类器:
吴恩达机器学习-第六章个人笔记
得到n个分类器后:
吴恩达机器学习-第六章个人笔记
h θ \theta θ(i)(x)是预测y属于类别 i 的可能性,所以每次我们都取使得h θ \theta θ(i)(x)最大的 i 值