关于一些概念

以下提到的概念在数据处理的过程中常会出现,但由于是比较小的知识点,所以经常遗忘,这里将它们汇总,以加深理解。

1.过差分

1.1 确定性分析方法

提到过差分,首先明确它使用的场景。它一般是在非平稳时间序列的随机性分析中,提取序列确定性信息的方法。
以上提到的随机性分析是相对确定性分析而言的。确定性分析方法将时间序列的变化看做主要是由四种成分(趋势、季节波动、周期波动、随机波动)导致的,通过考虑这四种成分的相互作用研究时间序列的波动特征。常用的方法有趋势拟合法、移动平均法、指数平滑法、分解预测法等。
但确定性分析方法存在以下问题:

  • 确定性分析方法只能提取序列中表现较为明显的确定性信息,忽略了随机性信息
  • 确定性分析方法将时间序列的波动归结于四种因素的影响,但缺乏有效的手段探究四种因素之间确切的关系,往往只能根据经验判断是加法模型还是乘法模型。
1.2 差分方法

面对确定性分析方法的这种不足,Cox和Jenkins提出使用差分方法提取确定性信息。
使用差分方法提取确定性信息的理论基础是Cramer分解定理

任何一个时间序列都可以分解成两部分的叠加,其中一部分是由多项式决定的确定性趋势成分,另一部分是平稳零均值误差成分,即xt=j=0dβjtj+Φ(B)atx_t = \sum_{j=0}^d \beta_j t^j + \Phi(B)a_t

那么对这样的时间序列,使用dd阶差分就能充分提取序列中的确定性信息,即dj=0dβjtj=c\nabla ^d\sum_{j=0}^d \beta_j t^j = c

1.3 差分运算的实质

dd阶差分展开:dxt=(1B)dxt=i=0d(1)iCdixti\nabla^dx_t = (1-B)^dx_t = \sum_{i=0}^d(-1)^iC_d^ix_{t-i}移项,改写为xt=i=1d(1)i+1Cdixti+dxtx_t = \sum_{i=1}^d(-1)^{i+1}C_d^ix_{t-i} +\nabla^dx_t因此可以看到,差分运算的实质就是用自回归的方式提取序列中的确定性信息,差分序列衡量自回归过程中的随机误差大小。

1.4 差分方法的选择
  • 显著线性趋势,一阶差分提取确定性信息
  • 曲线趋势,低阶差分提取确定性信息
  • 固定周期因素,步长为周期长度差分
1.5 过差分

虽然差分运算能够充分提取序列中的确定性信息,但差分的阶数不是越多越好。
差分本身是一种信息提取加工方法,提取的过程中会有信息的损失。当差分阶数过多时,会使得误差增大,残差序列的方差增大,预测精度降低,这就是过差分现象。
例如线性平稳过程xt=β0+β1t+atx_t = \beta_0 +\beta_1 t + a_t一阶差分后:xt=β1+atat1\nabla x_t = \beta_1 + a_t - a_{t-1}
二阶差分后2xt=xtxt1=at2at1+at2\nabla^2 x_t = \nabla x_t - \nabla x_{t-1} = a_t - 2a_{t-1}+a_{t-2}
比较一下两个序列的方差:Var(xt)=2σ2\mathrm{Var}(\nabla x_t) = 2\sigma^2 Var(2xt)=6σ2\mathrm{Var}(\nabla^2 x_t) = 6\sigma^2

2. 过拟合

相比起过差分,过拟合是一个更常见的概念,常见于统计学习中。

2.1 模型选择的策略

统计学习中,当我们确定了模型的形式后,需要给出选择模型的策略,常见的策略为经验风险最小化策略。

  • 损失函数:对于从关于模型的假设空间中选择的模型ff,对于给定的输出XX,给出的输出f(X)f(X)与真实值YY之间的差异,记为L(Y,f(X))L(Y,f(X))
    损失函数的形式有多种,常见的有:(1)0-1损失函数;(2)平方损失函数;(3)绝对损失函数。
  • 风险函数:损失函数的期望值Rexp(f)=E[L(Y,f(X))]R_{exp}(f) = E[L(Y,f(X))]。但是由于输出和输入之间的联合分布恰好是需要研究的对象,因此风险函数通常是无法直接计算的。
  • 经验风险:对于给定训练集下,模型ff关于训练集的平均损失Remp(f)=1Ni=1NL(yi,f(xi))R_{emp}(f) = \frac1N \sum_{i=1}^N L(y_i,f(x_i))同时我们根据马尔科夫大数定律可知,NRemp(f)Rexp(f)N\to \infty时,R_{emp}(f) \to R_{exp}(f)

一般的模型训练策略即选择在给定训练集下,使得经验风险达到最小的模型。

2.2 模型评估和模型选择

根据经验风险最小策略进行训练存在一个问题:当样本量NN不够大时,经验风险对风险函数的近似效果较差,很容易出现过拟合现象。

  • 过拟合现象:只提高模型对于训练数据的拟合能力时,所选的模型复杂度高于真实模型,此时模型无法甄别训练数据中的有效信息和噪声,因此对训练数据拟合效果较好,而对未知数据预测效果较差。

将模型对于未知数据的预测能力称为模型的泛化能力

综上,在进行模型选择时,需要考虑防止出现过拟合现象,选择复杂度适当的模型,并提高模型的泛化能力。需要对经验风险最小化策略进行改进。

  • 结构风险最小化策略:Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)R_{srm}(f)=\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
    结构风险最小化策略:在经验风险上加上表示模型复杂度的正则化项,J(f)J(f)与模型的复杂度呈正相关。

正则化(regularization)即为结构风险最小化策略的实现,它的提出也符合奥卡姆剃刀原理:所有可能选择的模型中,越简单的模型往往更正确。

除了正则化方法外,还可以通过在模型中划分出验证集的方法(即交叉验证法)计算测试误差。

  • 划分子集法:当样本数据充足时,将数据集划分为三部分:(1)训练集:训练模型;(2)验证集:选择模型;(3)测试集:对学习方法的评估。
    对于不同复杂度的模型,选择具有最小预测误差的模型。
  • 交叉验证法(cross validation):将给定的数据切分为训练集和测试集,在此基础上反复进行训练和测试。常见的有kk折交叉验证法和留一交叉验证法等。
2.3 稀疏学习

2.2节中介绍了加入正则化项和模型学习方法以及交叉验证法,实际中如果参数过多时,这种方法需要耗费较多的时间,因此进一步介绍能够将大部分参数设置为0的稀疏学习算法。

  • l1l_1约束的学习方法
    minJ(θ)  s.t.θ1R\min J(\theta) \ \ s.t. \|\theta\|_1 \le R
    其中J(θ)J(\theta)是经验风险。如果是在线性模型中,那么由于JJ是关于θ\theta向下的二次凸函数,又关于θ\thetal1l_1约束使得它在参数的轴上会形成角,所以很容易得到稀疏解。

  • 利用l1l_1约束进行变量选择
    常见的变量选择方法有向前选择法、向后选择法、逐步法等(一般不会考虑最优子集法),这些方法(尤其前两种)在进行选择时往往不能充分考虑变量之间的相互关系,通常只能得到局部最优解。而利用l1l_1约束可以在一定程度上考虑各个特征之间的联系,能得到更好的特征集合。

  • lpl_p约束的学习方法
    关于一些概念从本图可以看出,当p1p\le 1时,表示参数取值范围的单位球在坐标轴上是有峰值的尖形,此时可以得到稀疏解;而当p>1p >1时则是一个凸形,进行最优化较为困难。

  • l1l_1约束的不足
    若模型参数比样本量nn多,则经过l1l_1约束学习得到的模型中非零变量的个数最多为nn;此外l1l_1约束只能从多个相关性强的特征中选择一个值;而当模型参数大于样本量时,l1l_1约束的学习方法通用性可能不如l2l_2约束的学习方法。
    因此提出l1+l2l_1+l_2约束,保留了l1l_1约束和l2l_2约束的优点。

3. 虚假回归

虚假回归也是属于时间序列中的内容。它是指本来不存在因果关系的时间序列,由于存在相同的变化趋势,而呈现出的虚假相关性。