《谁说菜鸟不会数据分析》之时间序列分析

顾名思义,时间序列是按时间顺序排列的一组数据序列。
时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。

时间序列分析

该技术有以下3中基本特点:
1.假设事物发展趋势会延伸到未来;
2.预测所依据的数据具有不规则性;
3.不考虑事物发展之间的因果关系。

时间序列 四因素

通常情况下,一个时间序列会包含四种因素,如下表所示。

因素 说明 示例
长期趋势Trend(T) 指在一个相当长的时间内表现为一种 近似直线的持续向上或向下或平稳的趋势 如国内生产总值
季节变动Season(S) 指受季节变动所形成的一种长度和幅度 固定的短期周期波动。季节的周期不局限于自然季节,还包括月、周等短期周期。 如冷饮的销售量
循环变动Cycle(C) 指一种较长时间的上下起伏周期性波动。 通常来说时间波动在2-15年 如太阳黑子数量变化
不规则变动Irregular(R) 受偶然因素影响所形成的不规则波动,在时间序列中无法预计 如股票

四因素组合方式

加法

叠加而成
Y=T+S+C+I

乘法

综合而成
Y=T×S×C×I

季节分解法

在对一个时间序列进行预测时,需要先将上述四个因素从时间序列中分解出来。原因如下:
1.将因素从时间序列中分解出来后,能够克服其他因素的影响,仅考虑一种因素对时间序列的影响;
2.分解这四个因素后,可以分析他们之间的相互作用,也可以分析他们对时间序列的综合影响
3.当去掉某些因素后,可以更好地进行时间序列之间的比较,从而更加客观地反应事物变化发展规律
4.分解这些因素后的序列可以用于建立回归模型,从而提高预测精度。

一般并不需要对四个因素都进行分解,只需要进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余三种因素构成的序列来满足后续分析需求。
原因:
1.长期趋势反映了事物发展规律,是重点研究的对象
2.循环变动由于周期较长,也可以近似看做长期趋势的反应
3.不规则变动由于不容易测量,通常也不单独分析
4.季节变动的存在有时会让预测模型误判为不规则变动,从而降低预测模型精度。

在进行季节因素分解是需要先进行数据处理
定义日期标示变量,不建议将“日期”变量的数据类型改为日期型,因为这样有可能会导致数据损失。
操作:【数据】-【定义日期和时间】

序列图

【分析】-【时间序列预测】-【序列图】

季节因素分解新增4数据解释

1.误差序列(ERR):该值是从时间序列中移除季节因素、长期趋势和循环波动之后留下的序列。
2.季节因素校正后序列(SAS):该值为移除原始序列中季节因素之后的校正序列。
3.季节因子(SAF):该值为从序列中分解出来的季节因素。其中的变量值根据季节周期的变动进行重复。(可通过序列图查看季节因素对变量的影响趋势,即在季节周期内是如何变动的)
4.长期趋势和循环变动序列(STC):该值是原始序列中长期趋势和循环变动构成的序列。

在进行完季节因素分析之后,可以将原始序列、SAS、STC利用序列图绘制在一张图上查看区别。

专家建模法

时间序列预测步骤

  • 1.绘制时间序列图观察趋势
  • 2.分析序列平稳性并进行平稳化
  • 3.时间序列建模分析
  • 4.模型评估与预测

平稳性是指时间序列的所有统计性质都不会随着时间的推移而变化,对一个平稳时间序列来说,具有以下特征:
1.均数和方差不随时间变化
2.自相关系数只与时间间隔有关,与所处时间无关

自相关系数是指一个序列中不同时期的相关系数,也就是对时间序列计算器当前期和不同滞后期的一系列相关系数。

目前主流的时间序列预测方法都是针对平稳的时间序列的,但实际上很多时间序列都是不平稳的,所以先要识别序列的平稳性,将不平稳序列转换为平稳序列。只有时间序列并平稳化处理过以后才可以进行预测。

进行平稳化时间序列的方法有很多,经常使用的是差分法。

时间序列分析操作

【分析】-【时间序列预测】-【创建传统模型】
模型类型选择【所有模型】
【保存】选项卡-勾选【预测值】,已保存生成的预测数据。
最后还要单击【导出模型文件】框中的【XML文件】后边的【浏览】按钮,保存预测模型。
以下为预测步骤:
【分析】-【时间序列预测】-【应用传统模型】,选择刚刚保存的模型文件,选择【评估期结束后的第一个个案到指定的日期之间的个案】,并输入预测时间的截止日期。
【保存】选项卡-勾选【预测值】
计算完之后可以选择原始序列值和预测值,利用序列图,从全局的角度观察预测趋势。

《谁说菜鸟不会数据分析》之时间序列分析