FM

在计算广告领域，因子分解机(Factorization Machines，FM)是很经典的模型，面对量大且稀疏的数据，此算法仍然可以取得比较优秀的效果。

假设有下面的数据：

Clicked?	Country	Day	Ad_type
1	USA	26/11/15	Movie
0	China	1/7/14	Game
1	China	19/2/15	Game

其中，Clicked? 是label，Country、Day、Ad_type是特征。由于三种特征都是类别型的，需要经过独热编码（One-Hot Encoding）转换成数值型特征：

Clicked?	Country=USA	Country=China	Day=26/11/15	Day=1/7/14	Day=19/2/15	Ad_type=Movie	Ad_type=Game
1	1	0	1	0	0	1	0
0	0	1	0	1	0	0	1
1	0	1	0	0	1	0	1

经过编码之后，数据变的非常稀疏，在工业界这也是很难避免的一个问题。在这些稀疏的特征中，如果将其中一些特征加以关联，就可能得到与label管理更紧密的特征。例如对于 China 而言，19/2/15（即2015年2月19日）这天是春节，可能存在大量浏览和购买行为，广告点击率自然也会上升。

为了不错过任何有意义的特征组合，我们将所有特征两两组合起来形成新的特征，比较简单直接的实现方法是使用二阶多项式模式进行特征组合。例如将特征 $x_i,x_j$ 的组合可以用 $x_ix_j$ 表示，当且仅当 $x_i,x_j$ 都为1时得到的组合特征才有意义。需要注意的是，原本的特征在onehot编码之后已经很稀疏了，再对特征进行两两组合，那么得到的特征就更稀疏了。

在得到特征之后，假设我们用线性模型进行预测，则预测值的表达式可能是这样的：
$\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_i^n{\sum_{j=i+1}^n{w_{ij}x_ix_j}}$
式子中 n 代表特征数量， $w_0, w_{i}, w_{ij}$ 是模型的参数。其中组合特征参数 $w_{ij}$ 共有 $\frac{n(n-1)}{2}$ 个，需要大量的非零组合特征 $x_ix_j$ 才容易学习到合适的参数值。如何解决二次项参数 $w_{ij}$ 的学习问题？

矩阵分解提供了一种解决方法，由于特征组合后的系数可以构成对称矩阵 $W_{n \times n}$ ，因此可以对矩阵进行分解为 $W_{n\times n}=V_{n\times k}V_{n\times k}^T$ ，即 $w_{i,j}=<v_i,v_j>$ ，其中 $k\ll n$ 。于是，原本需要训练 $n \times n$ 个特征，现在只需要训练 $n \times k$ 个：
$\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_{i=1}^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}} \\ <v_i,v_j>=\sum_{f=1}^k{v_{if}v_{jf}}$
次数计算的时间复杂度为 $O(kn^2)$ ，能不能进一步优化一***意到 $\sum_{i=1}^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}}$ 实际上只是矩阵 $W_{n \times n}$ 中不包含对角线的上三角的部分，可以用 $W_{n \times n}$ 减去对角线元素后再除以2来得到：
$\begin{aligned} & \sum_{i=1}^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}} \\ & = \frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^n{<v_i,v_j>x_ix_j}}-\frac{1}{2}\sum_{i=1}^n{<v_i,v_i>x_ix_i}\\ & = \frac{1}{2}\left(\sum_{i=1}^n{\sum_{j=1}^n{\sum_{f=1}^k{v_{if}v_{jf}x_ix_j}}}-\sum_{i=1}^n{\sum_{f=1}^k{v_{if}v_{if}x_ix_i}}\right) \\ & = \frac{1}{2}\left(\sum_{f=1}^k{\sum_{i=1}^n{v_{if}x_i\sum_{j=1}^n{v_{jf}x_j}}}-\sum_{i=1}^n{\sum_{f=1}^k{v_{if}v_{if}x_ix_i}}\right) \\ &= \frac{1}{2}\sum_{f=1}^k\left(\left(\sum_{i=1}^n{v_{if}x_i}\right)^2-\sum_{i=1}^n{v_{if}^2x_i^2}\right) \end{aligned}$ i=1∑nj=i+1∑n<vi,vj>xixj=21i=1∑nj=1∑n<vi,vj>xixj−21i=1∑n<vi,vi>xixi=21⎝⎛i=1∑nj=1∑nf=1∑kvifvjfxixj−i=1∑nf=1∑kvifvifxixi⎠⎞=21⎝⎛f=1∑ki=1∑nvifxij=1∑nvjfxj−i=1∑nf=1∑kvifvifxixi⎠⎞=21f=1∑k⎝⎛(i=1∑nvifxi)2−i=1∑nvif2xi2⎠⎞
这样一来，是复杂度就降低为： $O(kn)$

引入二次项的FM模型，可以采用不同的损失函数用于解决回归、二元分类等问题，比如可以采用MSE（Mean Square Error）损失函数来求解回归问题，也可以采用Hinge/Cross-Entropy损失来求解分类问题。

（1）回归问题loss取最小平方误差
$loss^R(\hat y,y) = (\hat y - y)^2$
所以：
$\frac{\partial loss^R(\hat y,y)}{\partial \theta} = 2 (\hat y - y)\frac{\partial \hat y }{\partial\theta}$

（2）二分类问题loss取logit函数
$loss^C(\hat y ,y) = -\ln \sigma(\hat y y)$
所以：
$\frac{\partial loss^C(\hat y,y)}{\partial \theta} = [(\sigma(\hat y y) - 1]y \frac{\partial \hat y }{\partial\theta}$

其中：
$\frac{\partial}{\partial\theta} \hat y (\mathbf{x}) = \left\{\begin{array}{ll} 1, & \text{if}\; \theta\; \text{is}\; w_0 \\ \ x_i, & \text{if}\; \theta\; \text{is}\; w_i \\ \ x_i \sum_{j=1}^n v_{j, f} x_j - v_{i, f} x_i^2, & \text{if}\; \theta\; \text{is}\; v_{i, f} \end{array}\right.$

为了避免过拟合，也引入正则化。所以，FM的最优化问题就变成了：
$\theta ^* = \mathop{\arg\min}_{\theta} \sum_{i=1}^N\left(loss(\hat y(x_i) ,y_i)+ \sum \lambda_\theta \theta^2\right)$
注： $\lambda_\theta$ 是正则化系数。

FFM

在FFM（Field-aware Factorization Machines ）中每一维特征（feature）都归属于一个特定的field。对于进行onehot编码后的类别特征都属于同一个field。对于连续特征，一个特征就对应一个Field。例如：