Logistic Regression核心知识点透析
一、线性回归到广义线性回归
线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。线性模型通过联合其他函数扩展成为,建立响应变量的数学期望值与线性组合的预测变量之间的关系的模型,大大扩展了线性模型可解决问题的范围,这就是广义线性回归。不同的联系函数的选取就产生了不同的广义线性模型。常见的广义线性回归是基于指数分布族的,像高斯分布、伯努利分布,多项式分布、泊松分布(Poisson)、指数分布(Exponential)等等。
其中当随机变量服从高斯分布、伯努利分布时,就分别得到了最小二乘回归和Logistic回归。故Logistic回归就是一种广义线性回归的一种。
二、Logistic Regression的本质与核心
Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素
之间关系的
一种多变量分析方法。
回归最关键的问题就是研究如何求得一组权值,Logistic的本质仍然是线性回归;而让Logistic回归拥有分类能力的则是把特征线性求和得到的值( ),按照sigmoid函数映射到y,所以Logistic的核心就是sigmoid函数。
sigmod函数如图,可以将连续值映射到0和1上,从而实现二分类。(这也就是LR做多分类时,实际是做了多个二分类的原因)
三、sk-leran中Logistic回归的类型
4、Logistic回归的重点参数(结尾附带完整参数表)
重点参数1:正则化与优化方式的选择问题、
重点参数2:类型权重与样本权重(均衡样本问题)Logistic回归提供的两个参数均可调整这部分问题。
在实际问题中,常常出现下面两种问题:
第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。
第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。。
参数class_weight可以提高少类别样本的权重,从而会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。对于第二种样本失衡的情况,在调用fit函数时,通过sample_weight来自己调节每个样本权重。
在scikit-learn做逻辑回归时,如果上面两种方法都用到了,那么样本的真正权重是class_weight*sample_weight.
5、softmax回归——多分类问题的算法
Logistic回归参数附表