UCAS气候统计学_笔记
第二章 统计量
Robustness:则表明该分析不会受到数据分布特征的影响
( 数据符合正太则对,数据偏态则错不robust)
Resistance: 则表明它不会“过度”受到数据极值的影响,或者说当数据中的小\较大部分发生变化后,所采用的统计方法计算结果不会发生大的变化。 也不resist##
Location
替代平均数 更robust/resist 的location统计量:中位数,剪裁平均
百分位数: 将数据分布排列,(如中位数,上四分位数,下四分位数等。)
geomean\ harmmean
Spread/Dispersion 变化幅度
距平anomaly
**方差(variance)**S2
标准差(standard deviation
相比方差 更robust/resist spread统计量:IQR =$ q_{0.75}-q_{0.25}$
Symmetry 分布特征统计量
通常用样本的偏态系数来体现数据的分布特征,即相对于中心值的对称性
偏态系数 ;" style="zoom:100%/>
Yule-kendall 指数(更robust)
相关统计量
距平标准化后: 1.无量纲 2.均值0,标准差1
相关公式,上协方差
Pearson相关则反应了数据对之间线性关系的强度
Spearman排序相关很好的体现了数据对之间单调关系的强度
自相关 (时间上的+空间上的)
交叉相关
经验分布
柱状图 + 累积频率分布,都是显示哪里数据多的图
**符号散点图 **在散点上多加了点东西,比如不同颜色表示啥,大小表示啥
相关矩阵
散点图矩阵
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o4s1ahIa-1578649346516)(]);" style="zoom:100%/>
Looking vertically along the column for Ithaca precipitation, or horizontally along the row for Canandaigua precipitation, the eye is drawn to the largest few data values, which appear to line up. Most of the precipitation points correspond to small amounts and therefore hug the opposite axes. Focusing on the plot of Canandaigua versus Ithaca precipitation**, it is apparent that the two locations received most of their precipitation for the month on the same few days**. Also evident is the association of precipitation with milder minimum temperatures that was seen in previous examinations of these same data. The closer relationships between maximum and maximum, or minimum and minimum temperature variables at the two locations—as compared to the maximum versus minimum-temperature relationships at one location—can also be seen clearly.
相关图(相关矩阵升级),一点相关图One-point correlation map 空间相关图的相关性在空间上随距离逐渐变弱,但空间上存在遥相关性。
一点相关图,对相关矩阵的取值, (P70)
理论分布
优势:
- 压缩性-几个参数就行描述数据,不需要像经验分布对所有数据进行繁杂操作。
- 平滑及内插-数据更连续,不容易受到异常值影响。
- 外推-理论分布可以帮助我们判断气象数据两侧没有数据值可能的发生概率。
离散分布不讲
连续分布
PDF-概率密度函数
CDF-累计分布函数
直到概率可以反算随机变量
中心极限定理:n十分大,独立同分布数据的算数平均或和服从正态分布(μ,σ2/n)
大数定律:当试验次数很大时,便可以用事件发生的频率来代替事件的概率。
???矩估计
Gaussian
Gamma
α形状参数sharp,β尺度参数scale`
or
Gamma分布标准化,β=1,α不变,无量纲量:
-
sharp parameter
-
西南部分是明显右偏的降雨分布,而东部更正态分布一些
-
α = 1指数分布 雨滴大小
-
β=2 分布 检验理论分布v.s.实际分布
-
-
右偏分布,自由度越小偏态性越强,df=30接近高斯分布;
当df=1,2,pdf峰值位于原点,分布特征依赖于自由度; (df=degree of freedom)
-
t分布 检验均值
F分布 检验方差
极值分布——block maximum
极端类型定律(Extremal Types Theorem)表明:无论观测数据本身来自于何种固定的单个分布,当独立观测的次数足够多(m的个数),则来自于观测的极端值将遵循某种分布;
-
block maximum: 将数据分段block,每段包含m个数据,选择其中最大的值
-
方法:**Generalized Extreme Value (GEV)**广义极端值分布
Location(or shift):
Scale:β
Shape:- Gumbel分布 (Fisher-Tippett type I)
- 趋近0
-
- Frechet(Fisher-Tippett type II)
- >0
- 特殊 heavy tail现象
-
- Weibull(Fisher-Tippett type III)
- <0 风速
- α = 1,等同于指数分布
- α = 3.6, 类似于高斯分布
-
- Gumbel分布 (Fisher-Tippett type I)
-
使用注意事项
-
数据独立,且来自于同一分布,以及观测数据m足够大,但通常较难满足;
-
即使不满足上述条件,GEV也可以用,但不能保证拟合的效果;
-
block maximum方法的缺点:可能造成大量数据信息丢失;
-
Return Value
某次事件再次出现的时间长度(如平均或超过5、10、50年再次出现,等等),估计其在极值分布中对应的阈值,即关注极值分布中上百分位数;
某一Gumbel极值分布(年最大值数据)的PDF和CDF,垂直线代表2,10,100以及1000年的return value;此处2年的return value对应的F(x)=50%, 10年的return value对应的F(x)=90%(看CDF)
QQ-Plot
Quantile–quantile (Q–Q) plots compare empirical (data) and fitted CDFs in terms of the dimensional values of the variable (the empirical quantiles).
Apparently, the gamma distribution provides a reasonable representation of the data. The Gaussian distribution underrepresents the right tail and implies nonzero probability for negative precipitation.
Quantile–quantile plots for gamma (○) and Gaussian (x) fits to the 1933–1982 Ithaca January precipitation in Table A2. Observed precipitation amounts are on the vertical, and amounts inferred from the fitted distributions using the Tukey plotting position are on the horizontal. Diagonal line indicates 1:1 correspondence.
第三章 参数检验
概念
检验水平(test level/level)——α: 零分布中足够说明不可能发生的区域。0.01,0.05,0.1。
P值:样本满足零分布的前提下,样本计算得到的检验统计量的具体概率值。(零分布是,零假设里的分布)
二类错误
第一类错误:弃真,第二:纳伪 一般指控制α第一类错误的范围。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4gtyXGsg-1578647983033)(C:\Users\andy1\AppData\Roaming\Typora\typora-user-images\image-20200107200728601.png)]
均值检验
单个值
u检验,$u=\frac{\bar{x}-\mu_{0}}{\sigma /\sqrt{n}} $, 方差已知情况
t检验,方差未知;优点:小样本
成对数据检验
正态分布检验,方差已知情况
t分布检验:方差未知(小样本)
-
方差不等
-
方差等
正态分布:大样本(避免考虑样本方差齐性)
同时观察数据检验问题(地点相关性)
大气科学中同时观测两地的数据,直接检验,过高估计方差,统计值会降低,所以会容易认为均值相等。(应该被拒绝,却接受了)
**Solution:**双值相减变单值,即差,然后检验。
时间非独立数据检验(自相关性)
气象中的持续性(自相关)使得数据时间平均的方差比独立数据大,因此在使用前面所给出的方法分析通常会**“低估**”统计检验分布的方差部分,从而增大了统计检验的值,因此增大了平均值差异通过显著性检验的可能性。
Solution: 要先进行滤波。要考虑方差膨胀。
方差检验
单样本
检验
μ不知: 自由度
μ已知: 自由度,
双样本
F检验
μ1,μ2不知:
相关系数的检验
t检验
原假设为0
自由度
拟合优度 Goodness of Fit Tests
检验
-
比较经验和理论的PDF或离散分布函数
-
事先需要将数据分为离散的数据组,因此更合适用于分析离散随机变量;
-
对于连续变量,数据存在四舍五入分组的情况,可能会造成严重的信息损失的现象
方法:
分组原则:每一组中得到的期望数据个数不能太小(5个以上);
每组的概率或者范围不一定相等;右侧检验
检验自由度为
例子
例如,分别用Gamma和Gaussian分布拟合1933-1982年一月Ithaca的降水;
Gamma分布的参数:α = 3.76, β = 0.52 in
Gaussian分布参数: μ = 1.96in, σ = 1.12in
自由度 ,显著性0.1情况下。
Gamma: 不拒绝
Gaussian: 拒绝, 不拒绝
K-S检验
-
比较的是经验和理论分布的CDF
-
对于连续分布,K-S检验通常比检验更有用;
-
单侧检验;原假设该理论分布可行
-
局限性:
- 分布参数不由样本估计得到(否则拟合的很好)
- 检验重点——检验临界值选择(通常会造成本应拒绝零假设的检验接受了零假设。)
- 临界值选择:(旧的,不看了)
- Lilliefors的K-S检验统计量
- 经验累积概率,; F(x) 理论累积分布函数
-
临界值依赖于所选择的分布
- Gamma分布:检验临界值依赖于样本容量n和参数α,
- Gaussian分布:α = 无穷
例子
例:分别用Gamma和Gaussian分布拟合1933-1982年一月Ithaca的降水;
- 比较月降水量的经验累积概率和理论CDF;
寻找差异——Gamma和Gaussian分布检验的最大差异点为同一点: - Gamma
Gaussian
Filliben Q-Q csorrelation Test
方法:把Gaussian分布数据转换成百分位那种F,(, Tukey )
计算相关F和原始数据的相关系数,r和下面的值对比(Critical Value)
第四章
一元线性回归
残差特点,方差分析表,条件
残差分析
线性回归的残差应满足以下几个条件:
- 是独立的随机变量 ;
- 数学期望为0;
- 方差为常数;
- 满足正态分布;
方差分析
样本总平方和
样本回归平方和
残差平方和
R2=SSR/SST (=)被称为解释方差:反应了两个变量之间的线性关系密切程度程度。
平均回归平方和$MSR = SSR /1 $ ,自由度1
残差方差$MSE = (SST-SSR) /(n-2) $,自由度 n-2
显著性检验,,它不决定拟合好坏
回归方程的F检验
在原假设回归系数为0的条件下(即不存在线性回归关系)统计量
服从分子自由度为1,分母自由度为(n-2)的F分布
例如: 给定置信度95%,查F分布表,分子自由度为1,分母自由度为(20-2)的Fα=0.05=4.41,F = 20.18 则有表明二者的线性回归关系是显著的。
第五章
气候时间序列:
-
随时间变化的一列气候数据构成了一个气候时间序列;气候时间序列的趋势是指气候要素大体的变化情况,即描述很长时间尺度的演变过程;
一般特征:
-
数据的取值随时间变化;
-
每一时刻取值具有随机性;
-
前后时刻数据之间具有相关性和持续性;
-
序列整体上有上升或下降趋势,并呈现周期性振荡;
-
某一个时刻数据取值可能出现转折或突变;
提取方法:三次样条法,滑动平均5点二次,7点二次,9点二次。
3点加权滑动平均(1-2-1)的频率响应函数
对于无限大的周期 f→0(趋势),频率响应H(f) → 1 ,表示在过滤后无任何削弱;
高频部分,f=0.5,即周期为2的分量已完全消除;
检验方法:
-
Z检验,0.05显著性,在拒绝域内会就显著
-
Mann-Kendall Trend Test,要求无自相关(红噪声),白噪声去除(数据不够+有显著lag1自相关)
-
SR test
-
Sen’s slope 斜率判断是否有单调趋势
固有周期:有规律的周期变化,年循环、季节变化
准周期:会偶尔出现的循环,周期无法确定,比如厄尔尼诺。
气候突变检验
滑动t检验:把两端子序列的μ,看作两个总体μ,来t检验
Yamamoto method:信噪比来t检验
sequential Mann-Kendall test(SQ-MK) 正秩、反秩的交点就是突变点。优点是不需要考虑子段长度;但存在多个跃变点,不合适
Pettitt 构造秩序列,寻找最大值,带公式,也不适合突变点较多的情况
第七章
对已经存在的时间序列用公式表达,来得到其振荡周期,振幅等数据。这点和时间序列提取平滑不同。
弱平稳时间序列:
是指其中随机变量的时间序列,它的前期演变过程的统计相关规律在未来的一段时间内是不变的:
-
数学期望值与方差是不变的;
-
它的相关函数只与时间间隔有关而与时间无关(弱平稳或协方差平稳);
平稳化处理方法:1.去除年循环 2.数据分级:当序列足够短的时候就可以将它近似看作平稳的。
时间序列分析方法
- 时间域分析方法(离散:Markov;连续:自回归)
- 频率域分析方法:谐波分析、谱分析
1. 谐波分析(Harmonic analysis):
谐波分析是将一系列sine和cosine函数叠加在一起来表征原始数据的振荡或波动(midlatitude降雨数据=diurnal cycle+annual timescale)
$\alpha =\frac tn 2\pi $
上下移动距离,压缩拉伸
相位角
谐波与多元线性回归
用最小二乘法推出公式到A1 ,B1, 用表算出带入得到值
过度拟合:多元回归中,当拟合线通过所有数据点时,复相关关系为100%.若谐波方中包含n/2个谐波时 ,也称过度拟合。~~n/2能把所有点包含进去。~~分析中是可以过度拟合的,预报不可以
2. 谱分析(spectral analysis)
2.1. **原因1:**谐波函数彼此独立的特性,来自于sine和cosine函数彼此正交性;
单个谐波方差贡献:由于每个谐波之间彼此独立,因此它们对方程的方差贡献并不随谐波方程的变化而变化,如对第k个谐波而言,其方差贡献为:(功率谱纵坐标)
当有n/2个谐波,R2=1, Sy2原序列样本方差。注意,它常会被以对数方式表示。
2.2. 周期图/Fourier线谱(功率谱power)
-
定义: 时间频率因Fourier转换到频率域上的图像,可以图像分析,这个图像叫周期图或Fourier线谱。
-
离散功率谱(表达形式,纵坐标)
- 振幅 Ck2 = ,横坐标还可以是频率,(1/n,1/2),周期,波数k
- 标准谱密度,
-
意义:
– 提供了不同频率谐波对原数据的贡献;
– 但并没有提供位相角的信息,即没有提供不同频率谐波随时间的变化信息, 从而无法重构时间序列
Nyquist频率 $k=\frac n 2 \omega_{2} = \pi$, 最快频率1波下。
Aliasing假名问题: 可能序列存在的重要的物理过程频率比Nyquist频率更高频,但这些短周期振荡无法由直接分辨出来,则它们的作用会体现在较长周期( 和之间)中;也就是高频信号被冒名顶替了的现象。
Aliasing形成原因:
• 实际时间序列可能存在比Nyquist频率更高的快变化部分;
• 数据取样间隔过大,则不能体现这种快变化; 而这种比Nyquist频率高的频率并不会因此从数据真实变化中消失;
• 则这些高频的作用便虚假的体现在可分辨的频率中
如何避免Aliasing:
一但选定数据,则没有办法去除“Aliasing”现象,但:
– 通过提高数据分辨率的方法尽可能的避免该现象;
– 或者根据已知的物理过程,来确定资料/样本的变化率,从而达到去除假名现象;
– 对于探索性的研究,即不知道物理本质的问题,是没有办法去除假名现象的,可期望接近Nyquist频率的功率谱能量接近0,则可能说明高频部分的能量很小;
**白噪声:**表示不含有任何规律性波动的随机过程。由强度相同的各种频率振荡共同组成的随机序列。
**红噪声:**泛指一种含极长波长的红外光所组成。随频率增加噪声能量单调递减。
第八章
主成分分析PCA (principal component analysis)
对比回归分析:采用多个因子(方差分析),但因子间可能存在相关造成多余信息,于是预报效果会差。
EOF分析特点与优势:
- 则是利用最少的EOF因子解释数据集最大程度的变化(方差);
从客观的角度探寻数据集的变化结构;
分析变量间的关系; - EOF的结构基于数学方法获得,不一定对应某特定物理含义;
因此对其结果的描述要求基于物理事实或直觉;
经验正交函数分解(EOF)
可以看到Ithaca变化幅度是很大的,e1更靠近Ithaca。
他们的标准差为
两变量的协方差矩阵
两变量协方差阵的两个特征矢量为
特征矢量矩阵
特征值为:
$ \lambda_{1}=254.76^{\circ} \mathrm{F}^{2}$
• PC1的解释方差非常大;
• PC1体现了区域(两地)最小温度的主要变化特征;
• PC2可以认为是由上述两地构成的区域最小温度偏离整体区域变化特征的局地
变化;
REOF与EOF的对比:
EOF关注全局,不优待某个变量。
EOF正交性限制。
适合压缩数据
REOF简化结构,强调局部
寻找场的物理结构时,RPCA会更理想。
正交性不存在了,方差主导特征不存在了,均匀分给其他变量。
Figure 10.4 This PCA was computed using the correlation matrix of the height data, and scaled so that , The patterns resemble the teleconnectivity patterns for the same data.
Figure 10.24 Spatial displays of the first two rotated eigenvectors of monthly-averaged hemispheric winter 500-mb heights. The data are the same as those underlying Figure 12.4, but the rotation has better isolated the patterns of variability, allowing a clearer interpretation in terms of the teleconnection patterns in Figure 3.29. From Horel (1981).
Figure 3.29 Teleconnectivity, or absolute value of the strongest negative correlation from each of many one-point correlation maps plotted at the base gridpoint, for winter 500-mb heights. From Wallace and Blackmon (1983).
It shows the teleconnectivity map for northern hemisphere winter 500-mb heights. The density of the shading indicates the magnitude of the individual gridpoint teleconnectivity values. The locations of local maxima of teleconnectivity are indicated by the positions of the numbers, expressed as x 100. The arrows in Figure 3.29 point from the teleconnection centers (i.e., the local maxima in Ti) to the location with which each maximum negative correlation is exhibited.
第九章 EEMD方法
集合经验模分解:局部自适应时间序列分析技术,适合于分析非线性、非平稳的时间序列。它把复杂数据分解为有限个不同时间尺度的震荡分量。没有实现引入基函数。
第十章 气候极值
气候是所有天气现象的综合表述。C = pdf(Wi)
对于特定的气象要素(如温度或降水),气候就是所有可能天气值所构成的某种概率分布。
气候极值指那些远离气候平均态的小概率的极端事件。
如何构造一个正午气候分布?进而评估其平均和极端状态?
不考虑季节循环的情况下,用24小时逐时资料,365天的的均值,构造一个24小时的温度分布。并算出这些序列的3%和97%分位数,作为极端值。
考虑季节的情况下,构造一个365天12时的序列,用20年的数据来算出每一天正午值的平均,然后算出这些序列的3%和97%分位数,作为极端值。
极值分布GEV
GLM回归模拟
**优点:**把所有资料纳入一个关于分布(包括均值、极值)的非平稳统计框架,结果具有优越的统计稳定性。
**缺点:**必须预设某种分布,超拟合现象。
第十一章 气候的非均一性
非均一性:inhomogeneity 气候序列中某些时段由于非自然原因造成的系统偏差。(台站迁移、观测规则/仪器改变、卫星更替(如TOPEX/POSEIDON -JASON)资料处理不当)
均一化:检测校订资料的非均一性。
第十二章 随机天气发生器
SWGs(Stochastic Weather Generator) can produce elaborate random numbers which are statistically resemble weather observations, via Monte-Carlo simulations. SWGs are not designed for weather forecasting, but usually for climate studies.