【数据分析进阶】DCIC竞赛-task2 数据可视化
本节目标:完成出租车轨迹可视化与出租车热度可视化
数据可视化介绍
数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。
下图,未来美国的人口统计数据(不同年龄阶段)
从0-100岁人口年龄的分布
下图,电影对白(按性别划分)
数据可视化按用途可以划分为
- 数据统计展示;
- 数据分布展示;
- 数据对比展示;
数据可视化在机器学习&深度学习中应用广泛,如特征相关性热力图、特征分布趋势图、梯度可视化图和特征重要性直方图。
在交通领域,数据可视化同样用途广泛:
- 通过可视化可以找到热门的区域,定位到拥堵区域;
- 通过可视化可以找到热门的线路,定位拥堵线路;
- 通过可视化可以找到交通的流量;
无一例外,现有地图大数据报告都使用可视化的方式进行呈现:
- 百度交通大数据报告:https://jiaotong.baidu.com/reports/
- 滴滴交通大数据报告:https://sts.didiglobal.com/
- 高德交通大数据报告:https://report.amap.com/diagnosis/index.do
- 腾讯地图大数据:https://heat.qq.com/
常规可视化
基本流程
- 学习可视化的组成元素;
- 学习可视化的常见图像案例;
- 学习可视化库的使用;
可视化组成元素
圆圈表示各部分名称,通过官网例子可以获知每一部分是怎么用的https://matplotlib.org/3.3.1/gallery/showcase/anatomy.html
如上图在绘制一张图的过程中,有较多的细节需要注意,上图来源为matplotlib。一张图包含的具体的组成元素如下:
- 坐标轴、坐标轴标题;
- 图表标题、数据标签;
- 误差线、网格线;
- 图例等;
可视化图标类型
- 饼图(Pie Chart)或称饼状图,是一个划分为几个扇形的圆形统计图表。在饼图中,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例,且这些扇形合在一起刚好是一个完全的圆形。能够显示的取值的比例
- 散点图(Scatter Plot)是在笛卡尔座标上放置一系列的数据点,用来显示两个变量的数值(每个轴上显示一个变量),并检测两个变量之间的关系或相关性是否存在。
通过散点图可以发现两个变量是线性相关还是非线性,是正相关还是负相关,是强相关还是弱相关
-
-
条形图(Bar Chart)采用水平或垂直条形(柱形图)来比较不同类别的离散数值。图表其中一条轴代表要比较的具体类别,另一条则用作离散数值的标尺。更侧重数据具体的大小关系
-
箱形图(又称为「盒须图」或「箱线图」)能方便显示数字数据组的四分位数。
可以从箱形图得出的观察结果: -
关键数值,例如平均值、中位数和上下四分位数等
-
任何异常值(以及它们的数值)
-
数据分布是否对称
-
数据分组有多紧密
-
数据分布是否出现偏斜(如果是,往什么方向偏斜)
更多图形见
地图可视化
地图可视化方法如下:
- 点示地图 (Dot Map) 在地理区域上放置相等大小的圆点,旨在检测该地域上的空间布局或数据分布。
- 气泡地图指定地理区域上方会显示圆形图案,圆形面积与其在数据集中的数值会成正比。
-