技术分享|数据分析与可视化

随着大数据技术深入发展,在我们的日常工作无论是工作汇报、产品设计还是后台运维,越来越多的行业需要和数据打交道,数据几乎无处不在。然而同一组数据不同的展现方式也会给人带来千差万别的感受,或冰冷枯燥,或生动有趣。数据通过特别的方式来展示让人们一目了然的理解其背后的含义,这就是数据可视化。今天小编将从可视化的基础认知、可视化的经典案例和日常工作中所做的可视化范例三个方面带领大家一起了解数据可视化之美。

01

为什么要做可视化?

通常情况下,一图胜千言。我们人类的大脑超过50%的神经用来处理视觉相关的信息,我们的眼睛每秒能处理接近10 million 字节的信息。然而我们的大脑的解读信息最快需要 250毫秒。所以我们需要视觉的辅助去更好的理解数据。

技术分享|数据分析与可视化

上方的表格是苹果公司 2002年到2014年的iPod季度销量。仅仅通过观察表格,我们很难得出有效的结论。

但是通过观察下图能得出很明显的季度效应:在每年的圣诞假期,iPod销量会攀升再回落。

技术分享|数据分析与可视化

02

做可视化的优势?

*有助于日常工作中的工作描述和汇报,相较于表格,使用图表化的格式和描述报告。这样可以让查找和对比变得更加便捷。

*有助于发现和探索数据背后的新问题、新的趋势,以及数据间的逻辑关系。

*基于数据关系能帮助我们做出相关性的预测,比如基于时间序列的预测,同时我们在做推理和预测时仍要注意 Bias – variance trade-off,这是可视化的关键点。

技术分享|数据分析与可视化

 

Bias 在机器学习中描述了我们离目标的偏离程度,通常情况下我们希望模型非常精准,换言之,我们希望Bias尽可能的小。要达到这个目标,最简单有效的办法就是增加模型的复杂程度。例如,一元线性回归达不到目标,我们可以增加因子。一次方的回归不够,我们可以多次方回归。但是这样会导致新的问题,模型过于复杂产生了过拟合的问题。(对于已有数据表现良好,对于新进入的数据表现糟糕)

 

我们可以简单地将Variance理解为波动,通常来说,当一个模型特别复杂的时候,它的波动也是非常大的。反之,简单地模型波动波动通常较小。

技术分享|数据分析与可视化

Bias 和 Variance 就像一个跷跷板:Bias 高的时候 Variance 通常会低。Variance 高的时候,Bias通常会低

 

这里,我们举个Bias和Variance的例子

假设我们不知道四组数据的分布,但已知四组数据的的相关系数相同,线性回归方程相同,那么我们可以简单的画出四组相同的线性回归图例:

技术分享|数据分析与可视化

但假如x 和 y的分布如下

技术分享|数据分析与可视化

图一基本不存在问题,图二的variance需要增加,考虑y=ax^2 + b的回归方程。图三去掉极端值,或者考虑更换回归方程。图四可能不存在单纯的线性回归关系。

03

可视化的工具有哪些?

01 OFFICE套件

 •传统,快速,上手门槛低

 •数据类型有限,专业性通常不强

技术分享|数据分析与可视化

 

02 编程工具

 •需要搭设环境,上手门槛稍高 

 •兼容各类数据,专业性, 扩展性强

 •需要编程基础操作

 

03 Tableau

 •结合了两者优势,凭直觉就可以操作的软件

 •满足scope之外的可视化有困难

 •速度极快

技术分享|数据分析与可视化

 

可视化范例-经典历史案例

1812年俄法战争

技术分享|数据分析与可视化

>47万法军出征

1812 年,拿破仑进军莫斯科,企图征服这座城市。这成为了一场灾难:大军出征时共有约 47 万名士兵,而到了兵败还乡时则仅剩一万人。这张图表讲述了关于这场战役的故事,并成为了有史以来最著名的可视化作品之一。

>1万名兵败还乡

这幅地图详细地描述了拿破仑大军的出征与败退。线条的宽度代表士兵总数,颜色代表移动方向(黄色表示进军莫斯科的方向,黑色表示回程的方向)。在中心的可视化下方还绘制了一张简单的温度曲线图,用来展示寒冬气温骤降的情况。这张图表有力而详尽地描绘出了一副震撼人心的大溃败场景。

 

1854年伦敦霍乱

技术分享|数据分析与可视化

霍乱地图本质上是一张早期的点图可视化。图中在城市街区内用小条形图标记出了伦敦每个家庭中死于霍乱的人数。这些条形图的集中程度和长度反映出城市街区的特定集合,旨在试图查明这些地区的死亡率高于其他地区的原因。调查结果显示:霍乱感染者人数最多的家庭所使用的饮用水均来自同一口水井。

 

1986年挑战者航天飞机

1986年1月28日,挑战者号航天飞机在升空73秒后发生爆炸,飞行器上七人全部遇难,直接经济损失超过12亿美元。飞行器残骸散步超过1600平方公里,深度超过370米的海域。总计花了11年寻找全部残骸。事故原因被归结为“o”型密封圈在低温环境下失效,导致燃料泄漏被主发动机点燃。

技术分享|数据分析与可视化

技术分享|数据分析与可视化

 

可视化日常工作案例

反洗钱数据汇总

多维度(地域,罚单类型,银行机构类型等)的分析了2003年至今的反洗钱数据。

技术分享|数据分析与可视化

技术分享|数据分析与可视化

 

情感分析可视化

情感分析,针对白酒和水泥行业机器对比人的判断,可以得出结论在有明显的趋势性行业(白酒)机器通过判断财务报表中对于外来趋势的展望可以做到和专业人士的判断几乎一致。

技术分享|数据分析与可视化

技术分享|数据分析与可视化

 

最后

可视化

描述了整个关于数据收集整理,数据制图的过程。可视化的重点在使用科学的方法探索和呈现数据。

可视化

不是做出漂亮的图片,可视化是为了揭露数据中隐含的信息。而这些信息通常不是能被简单地统计数据所表现。

可视化

在商业分析中有重要的作用。减少了不确定性,揭露隐藏的机会,将对数据的深刻见解转变成前瞻视野,帮助做出更快更好的商业决定。

可视化

减少了人们处理信息的时间 ,帮助我们做出更好的分析 以及展现事物间的相关性帮助我们做更科学理性的预测。

 

技术分享|数据分析与可视化

扫描二维码 关注我们

微信号 : 和合信诺

扫描二维码,惊喜不断