数据挖掘 Chapter 4 - 数据仓库与联机分析处理

数据挖掘 Chapter 4 - 数据仓库与联机分析处理

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程
与操作数据库系统(OLTP)的区别

OLTP是面向办事员、客户等人员的,而OLAP是面向市场用于知识工人的

OLTP事为已知任务和负载设计的,所以在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。

数据仓库建模:数据立方体与OLAP

数据立方体允许以多维对数据建模和观察

  • 维:一个单位想要记录的透视或实体
    • 例如:维time, item, branch
  • 事实:数值度量的,看做数量
    • 例如:dollars_sold, units_sold

数据立方体是对多维数据存储的一种比喻,由于我们可以将任意n维数据立方体显示成(n-1)维立方体的序列,所以数据立方体是n维的,不限于3-D

数据挖掘 Chapter 4 - 数据仓库与联机分析处理

上图中往下参考的维越来越多,数据立方体的维数也越来越多

多维数据模型的模式
  • 星型
  • 雪花型
  • 事实星座
度量的分类和计算
  • 分布的:可以现在子集上计算再合并,如sum(),但是中位数就不是
  • 代数的:使用分布的聚集函数求得,如avg() = sum() / count()
  • 整体的 holistic:不存在一个具有M个参数的代数函数进行这一计算
典型的OLAP计算
  • 上卷:沿着一个维的概念分层向上攀升

  • 下钻:引入附加的维

  • 切片:在立方体的维上进行选择

  • 转轴:目视操作,转动数据的视角

reference

Han J. Data Mining: Concepts and Techniques[M]. 2005.