第六章 时间序列分析(一)平稳时间序列及其数字特征
时间序列分析
需要解释的概念
- 平稳时间序列
平稳时间序列
平稳时间序列及其数字特征
-
均值为常数,协方差函数与时间无关的时间序列叫做平稳时间序列
-
平稳时间序列有一种简化模型,就是均值为0的平稳时间序列。由于平稳时间序列的均值是常数,所以当某个平稳时间序列的均值非0的时候,可以给每一个元素都减去他们的均值,而且这个均值是指每个随机变量的均值,而不是指样本序列的均值,所以只要知道随机变量是什么可以很容易得到他的均值,因此任意一个平稳时间序列都可以转换为零均值的平稳时间序列。
-
均值讨论了之后,本来应该讨论自相关函数,但是不知道为什么,这里重要的数字特征引入了一个自相关系数函数(Autocorrelatrion Coefficient Function,ACF),就是那个皮尔逊相关系数的那个相关系数,计算也是协方差除以两个随机变量的方差之积开根号。非常神奇。这里引入一个计算公式:rou_k = v_k/v_0,这里rou_k就是自相关系数函数ACF,v_k是X_t和X_t+k的协方差函数,v_0同理,但是因为k=0我们倾向于叫v_0为方差。
-
平稳时间序列最重要的两个数字特征应该就是均值,协方差和自相关系数函数ACF(名字有点绕口我得多打几遍才能记住),由于均值比较简单,而且一般我们研究的都是零均值的平稳时间序列,因此我们下面讨论协方差函数v_k和自相关系数函数ACF的性质。
-
v_k和rou_k都是偶函数。这也比较好理解,因为根据他们的定义,k取一个相反数实际上也就相当于求协方差的时候或者求相关系数的时候两个参数调换一下位置。
-
v_k的模始终小于v_0,rou_k的模始终小于1.ACF始终小于1可以理解,毕竟相关系数嘛。因为协方差其实跟相关系数差不多,反应的其实也都是两个随机变量之间的相关关系,两个随机变量之间的相关关系再相关也不会比自己和自己更相关了吧,所以协方差函数大小始终小于方差函数大小。
-
非负定性。其实一直我也不老理解非负定性的概念的,大概查了查资料,大概懂了是说某个矩阵的ij位置元素作为前乘向量的第i个元素和后乘向量第j个元素乘积的系数的二次多项式,如果这个二次多项式是非负的,那么这个矩阵就具有非负定性。其实无论是v_k还是rou_k都应该是一个矩阵的,但是因为他们都跟时间无关,因此就自动认为把他们跟时间没关系了,可以用向量来表示。好像是因为把z_i跟X_t-i点积了一下然后求方差非负,可以化成协方差矩阵的非负定性。然后因为协方差v_k除以v_0直接就是rou_k所以也就得到rou_k对应的矩阵具有非负定性。
-
以上数字特征就介绍的差不多了,整个平稳时间序列也介绍的差不多了。理论上的东西讲完了之后,要看一下样本里面怎么处理。
-
样本均值X_bar是样本观测值的平均值,样本协方差函数v_k_hat是1/n乘以t=1到t=(n-k)求和,(X_t - X_bar)(X_t+k - X_bar),样本自相关系数协方差函数rou_k_hat是v_k_hat除以v_0_hat。
-
这里面样本均值和样本自相关系数函数都没啥可说的,就是正常情况,这里要提一下样本协方差函数。有些人可能会问,明明求和只有n-k项,为什么要除以1/n?这个问题好像涉及到一点正定性的原因。我找到了一份参考材料,在这份参考材料中提到,采取1/n的劣势是如果k过大的话,整体误差会增大,但是由于我们一般不用太大的k计算v_k_hat,而且更重要的是,只有1/n的估计式才是正定的。具体情况可以再仔细看看参考资料,这部分也不是很重要,就不再仔细解释了。
-
样本的部分基本上也就介绍这些了,接下来是一种特殊的平稳时间序列:白噪声序列
-
零均值,协方差函数满足方差为sigma^2以外其余都等于0的平稳时间序列就是白噪声序列。如果每个随机变量都服从正态分布的话,这个白噪声序列被称为正态白噪声序列。
-
由于在实际上,正态白噪声序列比较难以判断,因此引入一个定理,可以大致根据序列的相关函数对是否是正态白噪声序列进行初步判断。
-
对于正态白噪声序列来说,一切k>0,rou_k_hat服从N(0, 1/n)。因此,根据这个性质,rou_k_hat落在两倍标准差内的概率为95.5%,可以根据这个性质大致判断。
-
上面部分,最基本的概念就引入完毕了,接下来要进入重头戏了。时间序列分析的基本内容之一就是通过分析ACFrou_k等数字特征来研究X_t和X_t的滞后项(即X_t-1,X_t-2等)之间的线性相关关系,并且选取适当的模型来刻画这种关系,从而可以用X_t的样本观测值来对时间序列在未来某些时刻的值进行预报等。为了描述方便,此时引入延迟算子的概念。
-
BX_t = BX_t-1,则称B为一步延迟算子,B^k称为k步延迟算子。
-
由于上面说到了要研究X_t与滞后项的关系,因此引入一个随机变量序列Y_t = 求和i=0到p a_i*X_t-i,注意这里面有一个p作为参数,也就是向前追溯多少步。这个随机变量序列也被称为X_t的滑动加权平均序列。
-
介绍了延迟算子自然要用上,Y_t可以用延迟算子的函数和X_t来表示。即Y_t = f(B)X_t。f(B)是B的p次多项式,为 求和i=0到p a_iB^i。
-
大概总结一下,如下图所示