机器学习算法组队学习——基于逻辑回归的分类预测

逻辑回归

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

再线性模型进行回归学习的基础上,如果要做分类任务,只需要找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。
考虑二分类任务,最理想的单调可微函数是Sigmoid函数
机器学习算法组队学习——基于逻辑回归的分类预测
Sigmoid函数将z值转化为一个接近0或1的值。线性回归的输出为
机器学习算法组队学习——基于逻辑回归的分类预测
将其带入上式,得:机器学习算法组队学习——基于逻辑回归的分类预测
可以变化为:机器学习算法组队学习——基于逻辑回归的分类预测
其中y可以视为样本x为正例得概率,1-y则是其为返利得可能性。
通过极大似然法来估计w和b,给定数据集,回归模型最大化对数似然。
机器学习算法组队学习——基于逻辑回归的分类预测