推荐系统实践笔记（三）

1. 线性回归

最小二乘估计的概率解释

线性回归模型如下：

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

并假设误差 $\epsilon$ 符合正太分布，即：

$p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)}-\mu)^2}{2\sigma^2}}$

且一般认为误差的均值为0，即 $\mu=0$ ，，得出：

$p(\sigma^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}$

$p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$

上式的含义为给定参数 $\theta$ 情况下， $y^{(i)}$ 相对 $x^{(i)}$ 的条件概率。样本中满足独立同分布，则所有样本成立的概率为：

$L(\theta)=\prod_{i-1}^n p(y^{(i)}|x^{(i)};\theta) = (\frac{1}{\sigma\sqrt{2\pi}})^ne^{-\frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2}$

$logL(\theta)=log(\frac{1}{\sigma\sqrt{2\pi}})^n - \frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$

选择 $\theta$ 最打化似然函数 $logL(\theta)$ :

$\theta=argmax_{\theta}logL(\theta)=arcmin_{\theta}\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$

回忆最小二乘估计的目标函数：

$Q(\theta)=\sum_{i=1}^2(y^{(i)}-\theta^Tx^{(i)})^2$

选择参数 $\theta$ 最小化函数 $Q(\theta)$ :

$\theta=argmin_{\theta}Q(\theta)=argmin_{\theta}\sum_{i=1}^n(y^{(i)}-\theta x^{(i)})^2$

可以看出最小二乘估计与最大似然估计同解。

2. 逻辑回归

Logit函数定义如下：

$Logit(p)=log\frac{p}{1-p}$

我们用线性回归模型拟合Logit函数，即：

$log\frac{p}{1-p}=\theta^Tx$

得到：

$p=\frac{1}{1+e^{-\theta^Tx}}$

3. Youtube 时长预估

Youtube时长预估的计算方式为：

$y = e^{\theta^Tx}$

简单解释一下为什么，首先由Logit回归的定义：

$log\frac{p}{1-p}=\theta^Tx$

$\frac{p}{1-p}=e^{\theta^Tx}$

可见Youtubed预测值 $y$ 实际上事是这个概率比值，也就是所谓的Odd值。

此外，YouTube训练过程采用了播放时长加权，即损失函数为：

$loss=T*label*logp - (1-label)log(1-p)$

此操作实际相当于将当前正样本赋值了T次，这使得样本的odd值变为

$odd=\frac{Tp}{1-p}\approx \frac{E[T]}{1-p}\approx E[T](1 + p)\approx E[T]$

其中p值在Youtube的场景下较小，由此可以看出odd表示观看时长的期望值。

4. Selection Bias

所谓的Selection Bias指的是模型的训练样本和预测样本的分布不一致问题。

召回模型和排序模型一般使用曝光样本训练，召回模型需要处理全集和曝光样本的select bias，排序模型需要处理曝光样本与召回集的select bias。

推荐系统实践笔记（三）

推荐系统实践笔记（三）

1. 线性回归

2. 逻辑回归

3. Youtube 时长预估

4. Selection Bias

相关推荐