吴恩达机器学习-第六章个人笔记
分类算法logistic regression函数
6、1分类算法简介
分类的场景:
①邮件:垃圾邮件/非垃圾邮件
②肿瘤:良性/恶性
③网上交易:欺诈/非欺诈
分类一般用0和1来表示:0表示负分类(良性肿瘤),1表示正分类(恶性肿瘤)。(其实0和1表示的类别是随意的,只要相对应就好)
6、2logistic regerssion假设函数
logistic regerssion:
想要0<=h
θ
\theta
θ(x)<=1,
则h
θ
\theta
θ(x)=g(
θ
\theta
θTx)
其中g(z)=1/(1+e-z)图像如下:
这个函数称为Logistic函数或者Sigmoid函数。
这里h θ \theta θ(x)表示y=1的概率,即h θ \theta θ(x)=P(y=1|x; θ \theta θ),例如在肿瘤预测中h θ \theta θ(x)=0.7表示这个肿瘤有70%的概率是恶性的。
6、3决策边界
决策界限:
决策边界不是训练集所决定的,而是由假设函数以及假设参数的取值所决定的。
6、4代价函数
线性回归代价函数:
logistic regression代价函数:
6、5简化代价函数以及梯度下降
简化代价函数:
梯度下降算法:
这里我们会发现
θ
\theta
θ的偏导数和线性回归中的一致:
但是logistic regression 和linear regression的h
θ
\theta
θ(x)不一样,所以梯度变换并不完全一样。
logistic regression也可以和linear regression一样用向量同时更新所有的 θ \theta θ值;也可以使用特征缩放来提高收敛速度
6、6高级优化算法(自行掌握)
除了梯度下降之外的其他方法:
①conjugate gradient
②BFGS(共轭梯度法)
③L-BFGS
这些算法优缺点:
其中自动寻找最优
α
\alpha
α的方法是线内搜索法。
6、7多类别分类算法
举例:
邮件:家庭邮件(y=1),工作邮件(y=2),朋友邮件(y=3)。
二元分类和多类别分类:
n个类别分类:此时每次把一种类别当做正类别,其余类别均为负类别,得到n个分类器:
得到n个分类器后:
h
θ
\theta
θ(i)(x)是预测y属于类别 i 的可能性,所以每次我们都取使得h
θ
\theta
θ(i)(x)最大的 i 值