如何写好一篇数据部门规范文档

​一 为什么要编写规范文档

 

  • 部门技术沉淀

  • 开发人员开发时必须遵守的规范,减少后续维护成本

  • 新入职同事可以快速了解部门各流程规范,减少学习成本

 

二 如何编写规范文档(提供简易大纲)

 

1 数据模型规范

    1.1 账户权限

        1.1.1 表查询权限

            1.1.1.1 服务器远程连接HIVE查询权限

            1.1.1.2 即席查询权限

        1.1.2 表操作权限

                    1.1.2.1 表创建权限

                    1.1.2.2 表删除

                    1.1.2.3 分区删除
                    1.1.2.4 数据写入

                    1.1.2.5 TRUNCATE权限

        1.1.3 UDF函数创建权限

            1.1.3.1 JAR包上传权限

            1.1.3.2 ADD JAR权限

            1.1.3.3 CREATE FUNCTION权限

        1.1.4 用户管理权限

            1.1.4.1 新增用户权限

            1.1.4.2 删除用户权限

            1.1.4.3 修改用户权限

            1.1.4.4 查询用户权限

        1.1.5 数据源权限

            1.1.5.1 HIVE权限

            1.1.5.2 SPARKSQL权限

            1.1.5.3 PG权限

            1.1.5.4 ORACLE权限

            1.1.5.5 MYSQL权限

            1.1.5.6 HBASE权限

            1.1.5.7 REDIS权限

            1.1.5.8 ES权限

    1.2 项目命名规范

        1.2.1 主项目命名规范

        1.2.2 子模块命名规范

    1.3 数仓层级

        1.3.1 ODS层划分依据

        1.3.2 DWD层划分依据

        1.3.3 DW划分依据

        1.3.4 DWS划分依据

        1.3.5 ADS划分依据

    1.4 表创建的规范

        1.4.1 ODS命名规范

        1.4.2 DWD命名规范

        1.4.3 DW命名规范

        1.4.4 DWS命名规范

        1.4.5 DIM命名规范

        1.4.6 ADS命名规范

        1.4.7 TMP表命名规范

        1.4.8 字段类型选择规范

        1.4.9 注释规范

    1.5 测试表规范

        1.5.1 测试表命名规范

        1.5.2 测试字段命名规范

    1.6 字段规范

        1.6.1 词根大全

        1.6.2 字段命名(词根组合)规范

    1.7 时间分区规范

        1.7.1 时间分区字段命名规范

        1.7.2 时间分区保留规范

    1.8 任务规范

        1.8.1 任务命名规范

        1.8.2 任务开发规范

    1.9 测试任务规范

        1.9.1 任务命名规范

        1.9.2 任务开发规范

    1.10 测试规范

        1.10.1 测试流程规范

        1.10.2 测试结果展示规范

        1.10.3 测试结果修复规范

    1.11 数据操作规范

        1.11.1 建表规范

        1.11.2 分区删除规范

    1.12 表的主题规范

        1.12.1 大主题划分规范

        1.12.2 二级主题划分规范

        1.12.3 各题命名规范

    1.13 数据模型

        1.13.1 数据模型选择规范

        1.13.2 数据模型建设规范

    1.14 指标一致性管理

    1.15 维度一致性管理

        1.15.1 共享维表

        1.15.2 一致性上卷

        1.15.3 交叉属性

 

2 任务上线流程

    2.1 模式说明

    2.2 任务开发

    2.3 任务上线

    2.4 任务调度规范

        2.4.1 任务优先级规范

        2.4.2 任务调度时间规范

        2.4.3 任务数据源选择规范

    2.5 存档

    2.6 数据质量管理

        2.6.1 完整性

        2.6.2 一致性

        2.6.3 准确性

        2.6.4 唯一性

        2.6.5 关联性

        2.6.6 及时性

        2.6.7 离群值检测

        2.6.8 波动稽核

    2.7 元数据管理

        2.7.1 技术元数据管理

        2.7.2 业务元数据管理

    2.8 数据安全

        2.8.1 数仓加解密方法

        2.8.2 需求方取数流程规范

        2.8.3 部门数据安全KPI考核办法

 

3 运维

    3.1 关键指标预警

        3.1.1  电话告警

        3.1.2 邮件告警

        3.1.3 短信告警 

    3.2 报错处理

    3.3 数据回补

 

4 值班规范

    4.1 值班排班说明

    4.2 值班问题责任归属

    4.3 值班各部门联系人

    4.4 值班故障等级评估

 

如何写好一篇数据部门规范文档

2020大数据面试题真题总结(附答案)

如何优化整个数仓的执行时长(比如7点所有任务跑完,如何优化到5点)

从0-1建设数仓遇到什么问题?怎么解决的?

多值维度及交叉维度最佳解决方案

深入探究order by,sort by,distribute by,cluster by

Hive调优,数据工程师成神之路

数据质量那点事

简述元数据管理

你真的了解全量表,增量表及拉链表吗?

缓慢变化维(SCD)常见解决方案

全方位解读星型模型,雪花模型及星座模型

Sqoop or Datax

left join(on&where)

ID-Mapping

你们公司还在用SparkOnYan吗?

大厂高频面试题-连续登录问题

朋友面试数据研发岗遇到的面试题

数据仓库分层架构

简单聊一聊大数据学习之路

朋友面试数据专家岗遇到的面试题

HADOOP快速入门

数仓工程师的利器-HIVE详解

 

如何写好一篇数据部门规范文档