Logistic回归
1、导读
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。
主要思想就是:根据现有数据对分类边界线建立回归公式,以此进行分类。
训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。
2、Logistic回归的一般过程:
1)收集数据: 可以使用任何方法
2)准备数据: 由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳
3)分析数据: 画出决策边界
4)训练算法: 使用梯度上升找到最佳参数
5)测试算法: 使用 Logistic 回归进行分类
6)使用算法: 对简单数据集中数据进行分类
3、Sigmoid函数
Sigmoid函数的具体公式:
下图为Sigmoid函数在不同坐标尺度下的两条曲线图。当x为0时Sigmoid函数值为0.5。
随着1的增大,对应的Sigmoid值将逼近于1; 而随着x的减小,Sigmoid值将逼近于0。
Sigmoid函数是一种阶跃函数。
阶跃函数:在数学中,如果实数域上的某个函数可以用半开区间上的指示函数的有限次线性组合来表示,那么这个
函数就是阶跃函数。
4、基于最优化方法的最佳回归系数确定
为了寻找最佳参数,需要用到最优化理论的一些知识。
最优化方法
1)梯度上升法
基本思想:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。
如图所示:
迭代公式:
移动量称为步长,记做
该公式将一直被迭代执行,直至达到某个停止条件为止,比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围。
2)随机梯度上升
梯度上升算法在每次更新回归系数时都需要遍历整个数据集, 该方法在处理100个左右的数据集时尚可,但如果有数
十亿样本和成千上万的特征,那么该方法的计算复杂度就太高了。一种改进方法是一次仅用一个样本点来更新回归
系数,该方法称为随机梯度上升算法。由于可以在新 样本到来时对分类器进行增量式更新,因而随机梯度上升算法
是一个在线学习算法。