学习笔记——数据仓库基本介绍
数据仓库基本定义
定义
数据仓库 ( Data Warehouse ) 简称 DW 或 DWH ,是数据库的一种概念上的升级,是为企业
所有级别的决策制定过程,出于分析性报告和决策支持目的而创建。
区别
- 操作型数据库
- 业务支撑
- 细节数据
- 日常收录
- 量少频率高
- 分析型数据库
- 历史数据
- 汇总数据
- 定期更新
- 量大频率低
数据仓库的定义与特点
数据仓库的组成与分层
组成
数据组成 | 概念 |
---|---|
ETL | 数据提取extraction 、转换 transformation 、加载 load 。高级语言编写的程序、操作系统脚本、SQL 脚本 |
ODS | 贴源层,存储最原始的数据,有时根据数据清洗的需要会分成清洗前后两个层。面向主题、集成性、不稳定。 |
元数据 | 描述数据仓库内数据的结构和建立方法的数据。分为技术元数据和业务元数据。 |
数据集市 | 数据集市简单的讲就是单一主题的数据仓库。如 销售主题、借贷主题。。。 |
访问工具 | 用户访问数仓的工具 |
分层
ODS与DW的区别
ODS:是用于支持企业日常的、全局应用的数据集合。
承上启下:与 DW 一致的数据环境、简化数据传输给 DW
数据分层 | 面向主题 | 集成 | 稳定性 | 时间跨度 |
---|---|---|---|---|
数据贴源层(ODS) | 关注某个主题 | 多源数据→ETL | 联机更新 | 当前或近期 |
数据汇总层(DW) | 关注某个主题 | 多源数据→ETL | 通常不变 | 几年以上 |
数据分层 | 概念 |
---|---|
临时存储层 (ODS) | 它和源系统数据是同构的,数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。 |
数据汇总层 (DW) | 干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和 ods 的粒度相同,它会保存 bi 系统中所有历史数据 |
数据集市层 (MID) | 面向主题组织数据的,通常是星状和雪花状数据,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年。 |
应用层(APP) | 完全为了满足具体的分析需求而构建的数据,数据粒度高度汇总,只是mid 层数据的一个子集。 |
数据仓库的建模
范式建模
第三范式:表中的所有数据元素不但要能唯一地被主关键字所标识 而且它们之间还必须相互
独立 不能存在其他的函数关系。如学生表中 学生ID与姓名性别关联,但是姓名不与性别关联
维度建模
- 自下而上 根据维度表和事实表
- 维度表:分析主题所属类型的描述,一般固定且可穷尽。
- 事实表:分析主题的度量,一般情况下会不断增长或变化。