Datawhale 第7期 《李宏毅机器学习》任务四
学习打卡内容:
- 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1)
- 学习先验概率(2)
- 学习后验概率(3)
- 学习LR和linear regreeesion之间的区别(4)
- 推导sigmoid function公式(5)
Q1: 用回归模型是否可以做分类?
最好不要。
如果有一个二分类问题并且已经得到一个回归模型,这时候就有人会把分类当作回归硬解。例如把回归预测值更接近-1的部分划分为1类,更接近1的部分划分为2类,这么做就有可能产生一下问题:
训练集添加有很多的距离远大于1的数据后,分界线从绿色偏移到紫色。而事实上原先的绿色分界线的效果反而比紫色的效果好。
还有另外一个问题:比如多分类,类别1当作target1,类别2当作target2,类别3当作target3…如果这样做的话,就会认为类别2和类别3是比较接近的,认为它们是有某种关系的;认为类别1和类别2也是有某种关系的,比较接近的。但是实际上这种关系不存在,它们之间并不存在某种特殊的关系。这样是没有办法得到好的结果。
Q2: 生成模型 generative model
对一个二分类模型,可以利用贝叶斯公式计算该属性对应的类别,这一套方法称为生成模型。根据该模型可以生成x的分布,就可以自己去生成x。
Q3: 先验概率 prior probability
是指根据以往经验和分析得到的概率。是在缺乏某个事实的情况下描述一个变量,而后验概率是在考虑了一个事实之后的条件概率。
Q4:后验概率
后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来
Q5:推导朴素贝叶斯假设
朴素贝叶斯的一个重要假设是各特征之间相互独立,利用此假设可从简单的概率推导出朴素贝叶斯:在已知特征x的情况下求所属类别的概率。
在利用朴素贝叶斯做判断时,主要是比较各类别的概率,所以与分母无关,那么就可以只计算分子,从而得到:
Q6:LR和linear regression之间的区别与区别
1、逻辑回归和线性回归都是广义的线性回归
2、线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数
3、线性回归的输出是实域上连续值,LR的输出值被S型函数映射到[0,1],通过设置阀值转换成分类类别
4、liner regression期望拟合训练数据,通过feature的线性加权来预测结果; logistic regression是在训练一个最大似然分类器。