数据仓库学习笔记 --- 数据仓库中表的命令规范
数据仓库中比较核心的一个关键设计就是数据表的分层以及数据表的命名规范:
该例,以流程图的方式来展示,更加直观和易懂,本图侧重dwm层表的命名规范,其余命名是类似的道理:
1.第一个判断条件是该表的用途,是中间表、原始日志还是业务展示用的表
2.如果该表被判断为中间表,就会走入下一个判断条件:表是否有group操作
3.通过是否有grouo操作来判断该表该划分在dwd层还是dwm和dws层
4.如果不是dwd层,则需要判断该表是否是多个行为的汇总表(即宽表)
5.最后再分别填上事业群、部门、业务线、自定义名称和更新频率等信息即可。
表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我们能从表名获取到的信息就越多。以上图为例,我们单纯从表中就能获得如下信息:
分层:表的使用范围
1.事业群和部门:生产该表或者该数据的团队
2.业务线:表明该数据是哪个产品或者业务线相关
3.自定义:一般会尽可能多描述该表的信息,比如活跃表、留存表等
4.更新周期:比如说天级还是月级更新
这里只列举部分信息,有一些也是可以加入表命名中,比如说表的类型说增量更新还是全量更新,自定义命名部分更细致的划分等等。