高维非空间数据可视化
高维非空间数据可视化
数据变换
降低维度:
使用线性或非线性变换把高维数据投影到低维空间
投影保留重要的关系(无信息损失;保持数据区分等)
方法:
线性方法
- 主成分分析(PCA)
- 多维尺度分析(Multidimensional Scaling,MDS)
- 非负矩阵分解(NMF)
非线性方法
- ISOMAP
- 局部线性嵌套(LLE)
主成分分析
最大化 投影后的方差
最小化投影后的损失
方差:
方差描述变量的信息量
最大化投影后的方差
特征向量:
基于主成分分析(PCA)的可视化过程
多维尺度分析(MDS)
基于数据集相似程度的降维方法
(在某些情况下,只能够衡量数据点之间的距离)
输入:
数据点X间的相似矩阵M,以及投影的维度K
输出:
所有数据点在K维平面上的坐标Y
如果将数据点的相似度定义为数据点之间的欧式距离,那么多为尺度分析(MDS)等价于主成分分析(PCA)
(MDS允许定义不同的相似度,因而更加灵活)
数据呈现
高维数据呈现方法:
基于点的方法——散点矩阵、径向布局
基于线的方法——线图、平行坐标、径向轴
基于区域的方法——柱状图、表格显示、像素图、维度堆叠、马赛克图
基于样本的方法——切尔诺夫脸谱图、邮票图
散点矩阵:
使用一个二维散点图表达每对维度之间的关系
直观显示两个维度间的相关性
散点图数目与数据维度平方成正比
径向布局法:
基于弹簧模型的圆形布局方法
将代表N维的N个锚点至于圆周上
根据N个锚点作用的N种力量将数据点散布于圆内。
线图
单变量可视化方法。
通过多子图、多线条等方法可以延伸表示高维数据。
通过不同的视觉通道编码不同的数据属性
基于区域的方法
像素图:
介于点方法和区域方法的混合方法
使用具有颜色的小方块表达每个数据的单维度属性。
最大程度利用屏幕空间
维度堆叠:
将离散的N维空间映射到二维空间
将二维空间根据多个独立的数据属性迭代划分成若干网格
显著增加表达信息量
比较同类格式、不同数据的差别
马赛克图:
划分二维空间可视化多维数据
根据分布来分配空间大小
首先根据第一维度水平划分空间,再根据第二维度垂直划分空间,重复此过程直到遍历所有维度
星形图:
使用“辐条”编码数据值
每个数据点是一条星形折线