学习笔记——数据仓库基本介绍

数据仓库基本定义

定义

数据仓库 ( Data Warehouse ) 简称 DW 或 DWH ,是数据库的一种概念上的升级,是为企业
所有级别的决策制定过程,出于分析性报告和决策支持目的而创建。

区别

  • 操作型数据库
    1. 业务支撑
    2. 细节数据
    3. 日常收录
    4. 量少频率高
  • 分析型数据库
    1. 历史数据
    2. 汇总数据
    3. 定期更新
    4. 量大频率低

数据仓库的定义与特点

学习笔记——数据仓库基本介绍

数据仓库的组成与分层

组成

学习笔记——数据仓库基本介绍

数据组成 概念
ETL 数据提取extraction 、转换 transformation 、加载 load 。高级语言编写的程序、操作系统脚本、SQL 脚本
ODS 贴源层,存储最原始的数据,有时根据数据清洗的需要会分成清洗前后两个层。面向主题、集成性、不稳定。
元数据 描述数据仓库内数据的结构和建立方法的数据。分为技术元数据和业务元数据。
数据集市 数据集市简单的讲就是单一主题的数据仓库。如 销售主题、借贷主题。。。
访问工具 用户访问数仓的工具

分层

学习笔记——数据仓库基本介绍ODS与DW的区别
ODS:是用于支持企业日常的、全局应用的数据集合。
承上启下:与 DW 一致的数据环境、简化数据传输给 DW

数据分层 面向主题 集成 稳定性 时间跨度
数据贴源层(ODS) 关注某个主题 多源数据→ETL 联机更新 当前或近期
数据汇总层(DW) 关注某个主题 多源数据→ETL 通常不变 几年以上
数据分层 概念
临时存储层 (ODS) 它和源系统数据是同构的,数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。
数据汇总层 (DW) 干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和 ods 的粒度相同,它会保存 bi 系统中所有历史数据
数据集市层 (MID) 面向主题组织数据的,通常是星状和雪花状数据,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年。
应用层(APP) 完全为了满足具体的分析需求而构建的数据,数据粒度高度汇总,只是mid 层数据的一个子集。

数据仓库的建模

范式建模

第三范式:表中的所有数据元素不但要能唯一地被主关键字所标识 而且它们之间还必须相互
独立 不能存在其他的函数关系。如学生表中 学生ID与姓名性别关联,但是姓名不与性别关联

维度建模

  • 自下而上 根据维度表和事实表
    1. 维度表:分析主题所属类型的描述,一般固定且可穷尽
    2. 事实表:分析主题的度量,一般情况下会不断增长或变化
      学习笔记——数据仓库基本介绍

维度建模的三种模式

学习笔记——数据仓库基本介绍

实例

学习笔记——数据仓库基本介绍