回归

首先理解回归与分类的区别：回归的y值是针对连续值的，而分类中的y值则为离散值。
下面介绍几种重要的回归

线性回归

通常回归可以写成这样的形式（两个变量）： $h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2}$
而对于多变量的情况，则可以写成向量形式： $h_{θ} (x) = \sum_{i = 0}^{m} θ_{i} x_{i} = θ^{T} x$
对于回归，我们最常用的方法是最小二乘，下面通过极大似然估计来解释最小二乘。
对于回归函数： $y^{(i)} = θ^{T} x^{(i)} + ε^{(i)}$
我们假设误差 $ε^{(i)} (1 \leq i \leq m)$ 是独立同分布的，且服从均值为0，方差为 $σ^{2}$ 的高斯分布。
所以有： $p (ε^{(i)}) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(ε^{(i)})}^{2}}{2 σ^{2}})$
$p (y^{(i)} | x^{(i)}; θ) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}})$
$L (θ) = \prod_{i = 1}^{m} p (y^{(i)} | x^{(i)}; θ)$ ，即： $L (θ) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}})$
对数似然函数为：

目标函数为： $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} {(y^{(i)} - θ^{T} x^{(i)})}^{2}$
下面求解 $θ$ :
目标函数： $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} {(y^{(i)} - θ^{T} x^{(i)})}^{2} = \frac{1}{2} {(X θ - y)}^{T} (X θ - y)$
其中M个N维样本组成矩阵X：
–X的每一行对应一个样本，一共有M个样本
–X的每一列对应一个特征，一共有N个特征，还有一维常数项，全为1.
计算梯度：

参数的解析式： $θ = {(X^{T} X)}^{- 1} X^{T} y$
若 $X^{T} X$ 不可逆或者为了防止过拟合，需要增加 $λ$ 扰动: $θ = {(X^{T} X + λ I)}^{- 1} X^{T} y$
说明： $X^{T} X$ 是半正定的，则对于 $X^{T} X + λ I$ 一定是正定的，从而 $X^{T} X + λ I$ 可逆，则参数一定有解。
线性回归的正则项（防止过拟合）：
目标函数为： $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} {(y^{(i)} - θ^{T} x^{(i)})}^{2}$
L1-正则项： $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} {(y^{(i)} - θ^{T} x^{(i)})}^{2} + λ \sum_{j = 1}^{n} | θ_{j} |$
L2-正则项： $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} {(y^{(i)} - θ^{T} x^{(i)})}^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}$
Elastic Net:
说明：对于线性回归，L1正则化就相当于岭回归，L2正则化就相当于岭回归。

logistic回归

Logistic/Sigmoid函数

$h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}$
$g^{'} (x) = {(\frac{1}{1 + e^{- x}})}^{'} = \frac{e^{- x}}{(1 + e^{- x})^{2}}$ , $g^{'} (x) = \frac{1}{1 + e^{- x}} ∙ \frac{e^{- x}}{1 + e^{- x}} = \frac{1}{1 + e^{- x}} ∙ (1 - \frac{1}{1 + e^{- x}}) = g (x) (1 - g (x))$
Logistic回归参数估计
假设： $P (y = 1 | x; θ) = h_{θ} (x)$ ; $P (y = 0 | x; θ) = 1 - h_{θ} (x)$
$p (y | x; θ) = {(h_{θ} (x))}^{y} {(1 - h_{θ} (x))}^{1 - y}$
似然函数：

对数似然：

对数线性模型
一个事件的几率odds，是指该事件发生的概率与不发生的概率的比值。
对数几率：logit函数
$P (y = 1 | x; θ) = h_{θ} (x)$
$P (y = 0 | x; θ) = 1 - h_{θ} (x)$

Logistic回归的损失函数 $y_{i} \in {0, 1}$

Logistic回归的损失函数 $y_{i} \in {- 1, 1}$

广义线性模型GLM

y不再只是高斯分布，而是扩大为指数族中的任意分布；
变量 $x \to g (x) \to y$ ,连接函数g单调可导。
如线性回归中 $g (z) = z$ ;logistic回归中 $g (z) = \frac{1}{1 + e^{- z}}$

Softmax回归

K分类，第k类的参数为 ${\vec{θ}}_{k}$ ，组成二维矩阵 $θ_{k \times n}$
概率： $p (c = k | x; θ) = \frac{\exp (θ_{k}^{T} x)}{\sum_{l = 1}^{K} \exp (θ_{l}^{T} x)}, k = 1, 2 \dots, K$
似然函数：

对数似然：

随机梯度： $\frac{\partial J (θ)}{\partial θ_{k}} = (y_{k} - p (y_{k} | x; θ)) x$

回归

回归

线性回归

logistic回归

广义线性模型GLM

Softmax回归

相关推荐