【数据分析进阶】DCIC竞赛-task2 数据可视化

【数据分析进阶】DCIC竞赛-task2 数据可视化


本节目标:完成出租车轨迹可视化与出租车热度可视化


数据可视化介绍

数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。

下图,未来美国的人口统计数据(不同年龄阶段)
从0-100岁人口年龄的分布
【数据分析进阶】DCIC竞赛-task2 数据可视化

下图,电影对白(按性别划分)

【数据分析进阶】DCIC竞赛-task2 数据可视化

数据可视化按用途可以划分为

  • 数据统计展示;
  • 数据分布展示;
  • 数据对比展示;
    数据可视化在机器学习&深度学习中应用广泛,如特征相关性热力图、特征分布趋势图、梯度可视化图和特征重要性直方图。

在交通领域,数据可视化同样用途广泛:

  • 通过可视化可以找到热门的区域,定位到拥堵区域;
  • 通过可视化可以找到热门的线路,定位拥堵线路;
  • 通过可视化可以找到交通的流量;

无一例外,现有地图大数据报告都使用可视化的方式进行呈现:

  • 百度交通大数据报告:https://jiaotong.baidu.com/reports/
  • 滴滴交通大数据报告:https://sts.didiglobal.com/
  • 高德交通大数据报告:https://report.amap.com/diagnosis/index.do
  • 腾讯地图大数据:https://heat.qq.com/

常规可视化

基本流程

  • 学习可视化的组成元素;
  • 学习可视化的常见图像案例;
  • 学习可视化库的使用;

可视化组成元素

圆圈表示各部分名称,通过官网例子可以获知每一部分是怎么用的https://matplotlib.org/3.3.1/gallery/showcase/anatomy.html
【数据分析进阶】DCIC竞赛-task2 数据可视化
如上图在绘制一张图的过程中,有较多的细节需要注意,上图来源为matplotlib。一张图包含的具体的组成元素如下:

  • 坐标轴、坐标轴标题;
  • 图表标题、数据标签;
  • 误差线、网格线;
  • 图例等;

可视化图标类型

  • 饼图(Pie Chart)或称饼状图,是一个划分为几个扇形的圆形统计图表。在饼图中,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例,且这些扇形合在一起刚好是一个完全的圆形。能够显示的取值的比例
    【数据分析进阶】DCIC竞赛-task2 数据可视化
  • 散点图(Scatter Plot)是在笛卡尔座标上放置一系列的数据点,用来显示两个变量的数值(每个轴上显示一个变量),并检测两个变量之间的关系或相关性是否存在

通过散点图可以发现两个变量是线性相关还是非线性,是正相关还是负相关,是强相关还是弱相关

  • 【数据分析进阶】DCIC竞赛-task2 数据可视化

  • 条形图(Bar Chart)采用水平或垂直条形(柱形图)来比较不同类别的离散数值。图表其中一条轴代表要比较的具体类别,另一条则用作离散数值的标尺。更侧重数据具体的大小关系
    【数据分析进阶】DCIC竞赛-task2 数据可视化

  • 箱形图(又称为「盒须图」或「箱线图」)能方便显示数字数据组的四分位数。
    【数据分析进阶】DCIC竞赛-task2 数据可视化
    可以从箱形图得出的观察结果:

  • 关键数值,例如平均值、中位数和上下四分位数等

  • 任何异常值(以及它们的数值)

  • 数据分布是否对称

  • 数据分组有多紧密

  • 数据分布是否出现偏斜(如果是,往什么方向偏斜)

更多图形见

地图可视化

地图可视化方法如下:

  • 点示地图 (Dot Map) 在地理区域上放置相等大小的圆点,旨在检测该地域上的空间布局或数据分布。
    【数据分析进阶】DCIC竞赛-task2 数据可视化
  • 气泡地图指定地理区域上方会显示圆形图案,圆形面积与其在数据集中的数值会成正比。
    -【数据分析进阶】DCIC竞赛-task2 数据可视化