COVID-19席卷全球,看看GIS建模可视化能做些什么
新冠疫情席卷全球,看看GIS建模可视化能做些什么
一、什么是GIS建模
简单来说,GIS建模是将时空要素及相关信息进行挖掘量化,得出结论以用作分析指导,通常情况下,结论会以可视化的方式呈现出来。
二、GIS建模历史
GIS建模分析最著名的例子,可以追溯到1854年的伦敦宽街霍乱爆发事件。
19世纪中叶,伴随工业化进程,大量人口涌入伦敦,但当时的城市并没有合格的卫生系统,人们习以为常的将生活污水与排泄物抛洒到街市上,政府再将这些污秽倾倒入泰晤士河。
整个伦敦臭气熏天,卫生糟糕,污水污染了生活饮用水,导致“英王国有史以来最严重的霍乱爆发了”,仅仅三天,就有127人死去,之后一周,霍乱爆发的苏活区居民逃离了四分之三。
当时人们认识不到霍乱的原因是生活饮用水被污染,一直以为是城市中的臭气导致的。
对此观点,内科医生约翰·斯诺持怀疑态度。
他对苏活区的居民进行了走访,在走访的过程中,发现居民们从固定的几个水泵取水,于是约翰·斯诺将苏活区内的公共水泵和霍乱病例居住点都标注在地图上。
(下图便是著名的约翰斯诺霍乱地图,如果以水泵分布建立泰森多边形,会发现,霍乱病例是围绕公共水泵聚集的。)
通过对病例和水泵的位置分析,约翰·斯诺确定位于宽街的公共水泵是霍乱爆发的一个源头,于是建议政府将水泵把手拆掉。这一举措,使得霍乱得以平息。
约翰·斯诺做了非常详尽的调查,他还发现了一个异常现象,宽街的雄狮酿酒厂的工人没有得霍乱的,因为他们直接引用啤酒,并不会去喝宽街水泵的水。这个异常反例,更加佐证了他的结论,污水使霍乱爆发。
再之后,人们在水泵附近发现了粪便细菌。
约翰·斯诺对霍乱事件的调查,是流行病调查学的发端,也是地理空间分析的发端。
随着科学技术的进步,GIS建模分析与流行病调查,与时空大数据结合得越来越紧密。
自新冠疫情爆发以来,业内学者就结合时空数据,对其进行了传播防控、抗疫效果的建模分析,不过国内的建模分析一般都是基于报告模式的,少有web可视化的应用。
现在北京新冠疫情有反弹,相关报道多次提及使用大数据分析进行风险研判,虽然语焉不详,也看不到图,不过猜测一下,采用的应该都是活动轨迹等位置大数据。
回到GIS建模分析的结果呈现,可视化是GIS建模分析很重要的一点,因为很多结论的感知,一张图胜于长篇大论。
三、COVID-19空间建模案例
我们接下来欣赏一些比较好的基于新冠疫情进行空间建模并展示的案例吧。
1、约翰斯·霍普金斯大学的COVID-19仪表盘
自新冠疫情世界范围爆发之后,约翰斯·霍普金斯大学时常见诸报端,各大官方报道都援引它的数据作为标准数据。
约翰斯·霍普金斯大学专门为新冠疫情做了一个网站,汇总了世界各主权地区的新冠病例数据,从累积确诊、现有病例、发病率、病死率、检测率、住院率多个维度进行统计,还有时间趋势的走势图表。
关于世界性的新冠疫情,这个网站的数据是非常权威的。
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
我们来看北京,现在疫情有反弹,数据也及时更新了。
做过数据分析工作的人都知道,数据是分析的基础,没有数据,不能空谈算法,但丰富准确的数据,获取很难。不过作为世界顶级的医疗卫生领域研究机构,约翰斯·霍普金斯大学在数据获取渠道上,是没有什么困难的,更好的是,它能在疫情肆虐的时候,迅速而直观的将疫情的现状呈现给公众。
作为公众,我们能直接感受到疫情在世界范围的冲击。
2、Facebook的流动数据集
控制人口流动,是控制疫情传播的关键。
美国社交网络巨头Facebook,用海量用户的位置信息,对用户的运动趋势进行了建模分析。
https://visualization.covid19mobility.org/?date=2020-06-22&dates=2020-03-22_2020-06-22&metric=stay-put®ion=WORLD
在这个网页上,根据统计显示,最喜欢待着不动弹的是秘鲁,最喜欢到处乱跑的是韩国。
而且看时间趋势,待着不动的人数占比是不断下降的。
不过这个数据是有倾向性的,因为它不是基于全员的,而仅仅是Facebook的用户群体。
(这对数据挖掘工作者,也起到提示作用,在使用数据的时候,要先考虑到数据的倾向性会对结论造成干扰。)
这个网页没有中国的数据,韩国的数据还可以向下看到市一级。
不知道什么时候,微信能基于自己的位置大数据,做一个类似的分析页面,可能应该是有的,只不过不对外公布而已吧。
约翰斯·霍普金斯大学和Facebook的页面,正好是两种截然不同的地图风格,且都是经典常用的,一个是暗夜,一个是翠微,做地图展示,可以好好的参考。
3、mapbox专题,因新冠疫情导致的世界各地旅行降低
地图可视化服务提供商mapbox也基于新冠疫情,发布了一些地理空间信息建模报告。
《Where and when local travel decreased from COVID-19 around the world》就是其中一份,可以从中看出,随着新冠疫情的全球爆发,各国政府采取隔离措施,出行活跃度显著降低。
(从下面这张图上,我们可以看到一个非常经典而有效、且轻便的数据压缩+脱密的方法,通过设定好尺寸的网格计数。该网页计数的就是用户的定位轨迹数据。
汇总落入每个网格小方块内的用户轨迹点数量,每个小方块的颜色通过落入点的数量设定,数量越大,颜色越深。在通过小方块汇总计数的过程中,过滤掉了用户信息和精细轨迹,既降低了数据量,又去掉了用户敏感信息。
空间网格计数,应该采用的是geohash算法,geohash将空间匹配降维,时间复杂度很低,所以说,网格计数,是非常经典、有效、轻便的方法。)
下图是一个各国出行活跃度的时间趋势图,能看出都是呈下降趋势的,图表是要比文字直观的。
在该网页上,还有一个时间gif,动图更能直观的看出变化。
这个报告,最终得出一个结论,请大家留在家中。
通读这篇报告和Facebook的报告,我们也能窥见目前时空大数据挖掘建模的几个技术瓶颈,数据样本的局限性,大数据处理的延时性,数据精度与数据隐私的冲突,结论缺乏前瞻性。
mapbox上还有更多关于新冠疫情的专题图:https://blog.mapbox.com/tagged/covid19
4、谷歌关于新冠疫情的社区流动性报告
谷歌也用自己的位置数据,进行了疫情分析,不过它没有提供页面,而是一些pdf报告文件。
https://www.google.com/covid19/mobility/
我们仅看一下纽约的报告,从统计图上能看出来,商场、车站、办公场所的流动趋势显著下降,住所的流动趋势有提升,+14%,但什么也比不上公园对纽约人民的吸引力,+58%。看来大家也没怎么居家隔离,都去逛公园了。
能做出如此细粒度的建模分析,说明谷歌的数据资源是及其丰富详细的,首先,它在世界范围内,用户群体基数很大,这样才能获取足够多的轨迹数据,其次,空间建模需要的基础数据,POI和AOI,很充足,这样才能进行空间分类统计。
5、echart新冠疫情全国感染人数
国内也有一些基于新冠疫情数据制作的可视化页面,例如echart上的一个新型冠状病毒全国感染人数:https://gallery.echartsjs.com/editor.html?c=x0dK5jItt
该网页,将2020年1月20日到4月2日的全国数据进行了汇总,并建立时间轴,进行了分省的疫情数据地图可视化。
不过严格说来,页面地图是有问题的,另外右侧排行榜样式与图例不一致。
这个地图可视化页面有两方面是很有参考性的,其一是动态时间轴表示变化趋势;其二是仅表示相关内容,去掉了任何干扰要素。
专题地图三大要义:数据真实、结合到位、视觉美观,可视化要做到抓住要点,去繁就简,和谐统一,这个网页表现的很好,美中不足的是,地图使用不合法。
好吧,地图使用不合规、不合法,是硬伤。
只能说,法律法规问题是中国地理信息空间建模可视化发展的一座难以逾越的大山。
6、esri南丁格尔玫瑰结合地图展示
esri的地图专家Kenneth Field采用地图结合南丁格尔玫瑰的方式制作过一幅新冠疫情地图,既表达了新冠疫情的空间分布,又表达了在空间区域上的数量随时间的变化趋势。
这张图使用arcgis制作,非常直观简明。
不得不说,一个甲子过去了,esri仍然是地理空间分析领域,一座难以逾越的技术大山。
1858年始创的南丁格尔玫瑰,也仍然是最好的统计图表样式之一。
经典既永恒。
之前的例子大部分从广义上说,都是热力图,与这张图对比着看,能发现热力图的缺陷。热力图不能表达多维指标,我们在做分析建模可视化的时候,需要根据需求灵活选择表达形式,另外,在分析的时候,静态图比动图更好。
如何制作这样的一张图,Kenneth Field写了具体教程:
https://www.esri.com/arcgis-blog/products/arcgis-pro/mapping/mapping-coronavirus-coxcombs/
7、中科院地理所的报告
在三月份的时候,中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室紧急赶了一篇论文出来,论述《COVID-19:挑战与GlS 大数据技术应对》。
https://www.sohu.com/a/379088953_689260
在这篇报告中,院士团队从多个维度论述了中国对新冠疫情的出色应对,时空大数据分析对疫情摸排工作的作用,多源数据融合对复产复工情况的建模分析。
如果想了解国内时空大数据建模在学术领域的应用,看看这篇论文还是很有用的,有案例,有分析,有图表,且结合热点。
该论文结论中说,时空大数据建模应用,在数据的共享共建、融合应用层面,仍然有很大挑战。深以为然。
数据,过去十年是难点,未来十年,仍然也是,海量的时空大数据,如何存储,如何计算,如何保障安全;在技术和法律层面上,都不是短期能解决的。
四、总结:
1. 太平世界,环球同此凉热
2. 士不可以不弘毅,任重而道远
首先,在疫情前,没有谁能独善其身,没必要少出门,戴口罩勤洗手,不给国家和社会添麻烦,新冠疫情没有从世界范围绝迹,任何人都不能降低防范意识。
其次,建模分析的可视化工具,为我们关注疫情提供了便利,但时空大数据建模分析,仍然有很长的路要走,需要不断的追赶,最终实现超越。(法律法规的限制,底层技术的缺乏,多源数据的融合等)
单纯看技术,每个页面与报告背后,都有更深入的逻辑与方案,如何制定目标,如何获取数据,如何挖掘信息,如何去噪,如何压缩,如何筛选,如何展示等等,每一项展开,都有很庞大的枝节,都需要耗费精力和时间不断研究。
不过,只要是对人类社会有用有益,都是值得为之努力的。
革命尚未成功,吾辈仍需努力,共勉。