白话空间统计三十:地统计(4)探索性数据分析(1)

(文中和文末的广告,是腾讯微信平台自动插入的,和虾神无关……不过大家有闲心的话可以点击一下,点击之后,腾讯会对本公众号进行打赏……)

白话空间统计三十:地统计(4)探索性数据分析(1)


拿到一份数据,最先应该干嘛?

每到论文开题的时候,虾神经常接到邮件被询问这个问题(当然,到了deadline的时候,也有)拖延症这种全球统一不治之症啊……

白话空间统计三十:地统计(4)探索性数据分析(1)

白话空间统计三十:地统计(4)探索性数据分析(1)

说到这个问题——我先忏悔……我有罪……大家要体谅一个癌晚期患者啊,虾神可是在与病魔做不屈不挠的斗争。。。虽然大多数时候是被病魔击倒……

白话空间统计三十:地统计(4)探索性数据分析(1)

好吧,回到正题,拿到一份数据,第一件事应该做什么呢?答案当然是查看一下这份数据是否可用,或者说,是否有对我们要做的事情有帮助。

在工作中,在任务开始的时候,就发现可行性进行不下去,那么迅速调整方向或者干脆停止下来,是止损最合理的方式,但是若做到最后一步了,你回去给领导说,这个数据不行啊……这个功能做不了啊……这个XXX……,那么负责人肯定要疯……可以脑补一下,负责人会说些啥?当然,他除了诚恳的问候你的家人以外,会和你说的,一定会有这么一句:早干嘛去了?你怎么不早说?

白话空间统计三十:地统计(4)探索性数据分析(1)

所以,我们拿到数据第一件事,就是要对数据进行探索:

白话空间统计三十:地统计(4)探索性数据分析(1)

数据探索的手段又有哪些呢?答案就是三个字:可视化

白话空间统计三十:地统计(4)探索性数据分析(1)

说到这里,不得不说虾神经常接到的询问:

白话空间统计三十:地统计(4)探索性数据分析(1)

不管做什么分析,或者干脆都不知道要做什么分析的时候,把数据所有的特征都展现一遍,是最简单的分析入手方法。

当然, 各种可视化工具包汗牛充栋,不写代码的同学用Excel,写代码的同学可以用Python或者R,专业人士用SPSS等,那么今天我们来介绍一下ArcGIS内置的数据探索性分析工具——地统计中的探索性数据分析工具

白话空间统计三十:地统计(4)探索性数据分析(1)

ArcGIS地统计模块提供的探索性分析工具,与其他软件提供的那些妖艳货完全不同,他是专门针对地统计中克里金插值时候需要参数来进行设计的,如果有见识过同学,会发现有些工具,压根不知道是用来干嘛的,也读不懂有啥意义,那么这几篇文章,我主要就这个堆工具给大家做个简单介绍。

先看看数据:

白话空间统计三十:地统计(4)探索性数据分析(1)

中国某一天的平均气温,总共有2257个气象观测站。

首先,我们看看整份数据整体趋势,最简单的就是采用直方图来进行处理:

先切出地统计分析规模,然后选择Explore Data —— Histogram:

有时候会出现这个的选择框:

白话空间统计三十:地统计(4)探索性数据分析(1)

这是表示,你有可能出现同一位置有两个以上的点的情况,系统提示,你如何处理,一般默认就是用平均数,当然,你也可以选择移除,或者用最大、最小值的方式,选择之后,点击OK,出现图形之后,在下发选择你要探索的数据属性,比如我们要对mean字段进行探索:

白话空间统计三十:地统计(4)探索性数据分析(1)

从这份数据可以看出,有两个很明显的波峰,我们点击两个波峰,来看看数据的分布情况:

白话空间统计三十:地统计(4)探索性数据分析(1)

第一个波峰,主要都集中在华北、秦岭山脉、青藏高原等温度相对较低的区域。

白话空间统计三十:地统计(4)探索性数据分析(1)

第二个波峰主要是南方广大区域,相对来说,温度比较高的区域。

这个选择交互性的效果,是ArcGIS的一个特性,与Python做的可视化效果图最大的不同就在于他可以根据你的需求进行交互。

这里的直方图,主要是用来显示数据的概率分布特征及其概括性的一些指标的,从上面的图形里面,我们就可以很直观的看见数据的分布概率。而且从右上角的小窗口里面,也能看见一些统计信息,比如个数(count),最小值(Min),最大值(Max),平均值(Mean),标准差(Std Dev.)、峰度(Kurtosis)、偏态(Skewness),四分之一分位数(1-st Quartile) ,中位数(Median),四分之三分位数(3-rd Quartile)。

PS:里面大部分的统计值都是常见,我简单解释两个比较少见的,峰度和偏态。

下面部分资料来自某度:

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。

一般来说,如果是标准正态分布,那么峰度就应该是3,所以通常以3为参照,大于3,则表示分布具有过度的峰度,小于3则表示不足。

白话空间统计三十:地统计(4)探索性数据分析(1)

所谓的过度,指的是聚集度越高,即变量值的次数在众数周围分布比较集中,反之,不足指的是变量值的次数在众数周围比较分散。

这里我们看见,数据的峰度为2.2,也就是出现的是峰度不足,数据在众数的周围比较分散。

峰度越高,表示方差的增大是因为极值引发的。

偏态(skewness)是指非对称分布的偏斜状态,0表示完全无偏,大于0表示右偏态,小于0表示左偏态。

从上面这份数据的统计信息来看,数据略成左偏态,峰度小于3,值在中心附近呈现离散分布,但是中位数与平均值非常接近,可以认为,近似于正态分布,所以不需要变换。

当然,我们也可以通过Python来实现上面的效果:

白话空间统计三十:地统计(4)探索性数据分析(1)

当然,这里就是一个可视化效果,你要是有交互的需求,就别想太多了……

上图的源码和数据位置如下:

https://github.com/allenlu2008/PythonDemo/tree/master/008插值/地统计插值