关于一些概念

以下提到的概念在数据处理的过程中常会出现，但由于是比较小的知识点，所以经常遗忘，这里将它们汇总，以加深理解。

本文目录

1.过差分

1.1 确定性分析方法
1.2 差分方法
1.3 差分运算的实质
1.4 差分方法的选择
1.5 过差分

2. 过拟合

2.1 模型选择的策略
2.2 模型评估和模型选择
2.3 稀疏学习

3. 虚假回归

1.过差分

1.1 确定性分析方法

提到过差分，首先明确它使用的场景。它一般是在非平稳时间序列的随机性分析中，提取序列确定性信息的方法。
以上提到的随机性分析是相对确定性分析而言的。确定性分析方法将时间序列的变化看做主要是由四种成分（趋势、季节波动、周期波动、随机波动）导致的，通过考虑这四种成分的相互作用研究时间序列的波动特征。常用的方法有趋势拟合法、移动平均法、指数平滑法、分解预测法等。
但确定性分析方法存在以下问题：

确定性分析方法只能提取序列中表现较为明显的确定性信息，忽略了随机性信息
确定性分析方法将时间序列的波动归结于四种因素的影响，但缺乏有效的手段探究四种因素之间确切的关系，往往只能根据经验判断是加法模型还是乘法模型。

1.2 差分方法

面对确定性分析方法的这种不足，Cox和Jenkins提出使用差分方法提取确定性信息。
使用差分方法提取确定性信息的理论基础是Cramer分解定理：

任何一个时间序列都可以分解成两部分的叠加，其中一部分是由多项式决定的确定性趋势成分，另一部分是平稳零均值误差成分，即 $x_t = \sum_{j=0}^d \beta_j t^j + \Phi(B)a_t$

那么对这样的时间序列，使用 $d$ 阶差分就能充分提取序列中的确定性信息，即 $\nabla ^d\sum_{j=0}^d \beta_j t^j = c$

1.3 差分运算的实质

把 $d$ 阶差分展开： $\nabla^dx_t = (1-B)^dx_t = \sum_{i=0}^d(-1)^iC_d^ix_{t-i}$ 移项，改写为 $x_t = \sum_{i=1}^d(-1)^{i+1}C_d^ix_{t-i} +\nabla^dx_t$ 因此可以看到，差分运算的实质就是用自回归的方式提取序列中的确定性信息，差分序列衡量自回归过程中的随机误差大小。

1.4 差分方法的选择

显著线性趋势，一阶差分提取确定性信息
曲线趋势，低阶差分提取确定性信息
固定周期因素，步长为周期长度差分

1.5 过差分

虽然差分运算能够充分提取序列中的确定性信息，但差分的阶数不是越多越好。
差分本身是一种信息提取加工方法，提取的过程中会有信息的损失。当差分阶数过多时，会使得误差增大，残差序列的方差增大，预测精度降低，这就是过差分现象。
例如线性平稳过程 $x_t = \beta_0 +\beta_1 t + a_t$ 一阶差分后： $\nabla x_t = \beta_1 + a_t - a_{t-1}$
二阶差分后 $\nabla^2 x_t = \nabla x_t - \nabla x_{t-1} = a_t - 2a_{t-1}+a_{t-2}$
比较一下两个序列的方差： $\mathrm{Var}(\nabla x_t) = 2\sigma^2$ $\mathrm{Var}(\nabla^2 x_t) = 6\sigma^2$

2. 过拟合

相比起过差分，过拟合是一个更常见的概念，常见于统计学习中。

2.1 模型选择的策略

统计学习中，当我们确定了模型的形式后，需要给出选择模型的策略，常见的策略为经验风险最小化策略。

损失函数：对于从关于模型的假设空间中选择的模型 $f$ ，对于给定的输出 $X$ ，给出的输出 $f(X)$ 与真实值 $Y$ 之间的差异，记为 $L(Y,f(X))$ 。
损失函数的形式有多种，常见的有：（1）0-1损失函数；（2）平方损失函数；（3）绝对损失函数。
风险函数：损失函数的期望值 $R_{exp}(f) = E[L(Y,f(X))]$ 。但是由于输出和输入之间的联合分布恰好是需要研究的对象，因此风险函数通常是无法直接计算的。
经验风险：对于给定训练集下，模型 $f$ 关于训练集的平均损失 $R_{emp}(f) = \frac1N \sum_{i=1}^N L(y_i,f(x_i))$ 同时我们根据马尔科夫大数定律可知， $N\to \infty时，R_{emp}(f) \to R_{exp}(f)$

一般的模型训练策略即选择在给定训练集下，使得经验风险达到最小的模型。

2.2 模型评估和模型选择

根据经验风险最小策略进行训练存在一个问题：当样本量 $N$ 不够大时，经验风险对风险函数的近似效果较差，很容易出现过拟合现象。

过拟合现象：只提高模型对于训练数据的拟合能力时，所选的模型复杂度高于真实模型，此时模型无法甄别训练数据中的有效信息和噪声，因此对训练数据拟合效果较好，而对未知数据预测效果较差。

将模型对于未知数据的预测能力称为模型的泛化能力。

综上，在进行模型选择时，需要考虑防止出现过拟合现象，选择复杂度适当的模型，并提高模型的泛化能力。需要对经验风险最小化策略进行改进。

结构风险最小化策略： $R_{srm}(f)=\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$
结构风险最小化策略：在经验风险上加上表示模型复杂度的正则化项， $J(f)$ 与模型的复杂度呈正相关。

正则化(regularization)即为结构风险最小化策略的实现，它的提出也符合奥卡姆剃刀原理：所有可能选择的模型中，越简单的模型往往更正确。

除了正则化方法外，还可以通过在模型中划分出验证集的方法（即交叉验证法）计算测试误差。

划分子集法：当样本数据充足时，将数据集划分为三部分：（1）训练集：训练模型；（2）验证集：选择模型；（3）测试集：对学习方法的评估。
对于不同复杂度的模型，选择具有最小预测误差的模型。
交叉验证法(cross validation)：将给定的数据切分为训练集和测试集，在此基础上反复进行训练和测试。常见的有 $k$ 折交叉验证法和留一交叉验证法等。

2.3 稀疏学习

2.2节中介绍了加入正则化项和模型学习方法以及交叉验证法，实际中如果参数过多时，这种方法需要耗费较多的时间，因此进一步介绍能够将大部分参数设置为0的稀疏学习算法。

$l_1$ 约束的学习方法
$\min J(\theta) \ \ s.t. \|\theta\|_1 \le R$
其中 $J(\theta)$ 是经验风险。如果是在线性模型中，那么由于 $J$ 是关于 $\theta$ 向下的二次凸函数，又关于 $\theta$ 的 $l_1$ 约束使得它在参数的轴上会形成角，所以很容易得到稀疏解。
利用 $l_1$ 约束进行变量选择
常见的变量选择方法有向前选择法、向后选择法、逐步法等（一般不会考虑最优子集法），这些方法（尤其前两种）在进行选择时往往不能充分考虑变量之间的相互关系，通常只能得到局部最优解。而利用 $l_1$ 约束可以在一定程度上考虑各个特征之间的联系，能得到更好的特征集合。
$l_p$ 约束的学习方法
从本图可以看出，当 $p\le 1$ 时，表示参数取值范围的单位球在坐标轴上是有峰值的尖形，此时可以得到稀疏解；而当 $p >1$ 时则是一个凸形，进行最优化较为困难。
$l_1$ 约束的不足
若模型参数比样本量 $n$ 多，则经过 $l_1$ 约束学习得到的模型中非零变量的个数最多为 $n$ ；此外 $l_1$ 约束只能从多个相关性强的特征中选择一个值；而当模型参数大于样本量时， $l_1$ 约束的学习方法通用性可能不如 $l_2$ 约束的学习方法。
因此提出 $l_1+l_2$ 约束，保留了 $l_1$ 约束和 $l_2$ 约束的优点。

3. 虚假回归

虚假回归也是属于时间序列中的内容。它是指本来不存在因果关系的时间序列，由于存在相同的变化趋势，而呈现出的虚假相关性。