PowerBI - 7.业务数据中心数据清洗工序

数据治理是将采集与汇聚的数据进行清洗、转换,生成可用的数据存入数据仓库中。
ETL逻辑结构按照处理过程可划分为ETL预处理、ETL转换清洗、ETL目标数据装载。对于数据提供者,包括业务系统以及管理系统,通过ETL预处理,数据装载入数据缓冲区。ETL转换清洗通过连接、合并、分割,按照清洗规则对数据缓冲区、数据存储区的数据进行加工、汇总,最终装载入数据存储区。
ETL预处理:
加载源系统数据,增加时间拉链,数据装载入数据缓冲区。对源数据做数据平衡检查、稽核数据有效性,报告数据质量问题。
ETL清洗:
对数据缓冲区数据标准化,统一数据表达格式,排序数据,筛选重复数据,合并或分割数据项,装载入数据存储区的基础数据层,报告数据转换清洗异常。
ETL转换:
对操作型存储区的贴源标准化数据,按照业务转换规则、通用数据清洗规则,加工数据,装载入数据仓库区的基础层。ETL3处理是耗时最长,逻辑处理最复杂的阶段,需要非常重视。
ETL再转换:
从数据仓库层进行适量的维度、指标建模。一些低粒度数据逐步向高粒度数据归并和汇总。
ETL目标数据装载:
提供数据存储区的层数据。本模式提供历史仓库允许的相应时间段的历史数据支持。
PowerBI - 7.业务数据中心数据清洗工序
PowerBI - 7.业务数据中心数据清洗工序
SSIS 是一款经典的ETL工具,是企业级的数据整合方案,内置于SQL Server企业版中

  1. 面世10余年,是功能最丰富,资历最深的ETL工具之一。
  2. 图形化管理界面,易学,易用。
  3. SQL Server Data Tools(SSDT)和 SQL Server Management Studio(SSMS)支持并行管理SSIS的工具包,方便进行综合管理和调度。
  4. 支持丰富的数据源、工作流、转换模型。



7.1. ODS库建设办法
在实际情况中,对一个分析主题是需要全面的数据来进行了解和分析。例如销售数据,我们希望看到计划销售数据、实际销售数据 和特殊销售数据。 但实际上往往ERP系统只有实际销售数据,是没有计划销售数据和特殊销售数据的原始数据。这往往会制约商业智能的分析效果。所以,我们往往会在OLTP 和 Data Ware House 之间构建一个 ODS 数据库。该ODS 面向Data Ware House的分析结构 ,来存放OLTP的业务数据。
PowerBI - 7.业务数据中心数据清洗工序
从上图可以看到,实际销售数据主要来自 ERP 系统。而计划销售数据与特殊销售数据则来自Excel 数据格式。
对于OLTP的业务数据具有变化范围少,每日新增数据量大。可以在OLTP 的ETL 数据处理主要采用增量更新模式。
对于Excel的业务数据具有变化范围大,业务数量不稳定。每次更新多的情况,就在ETL 数据处理中采用完全更新模式。
作为ODS 中的销售数据,必须保证数据源所提供的数据的管理颗粒度必须一致,这样才具有分析的定义


7.2. 数据质量检查
数据在源系统到数据湖(数据池)或ODS层时,因众多原因导致数据不完整,不准确,不实时等数据质量问题,故需要选定的一些办法进行处理。

7.2.1. 数据行级检查
对目标源系统和目标业务数据中心抽取数据过程进行,两边表符合条件的数据记录行数进行校验,以例得到两边数据行数一致。对项目范围内两边表进行级数据量比较时,若发现不一致情况推送到预警系统。

7.2.2. 数据列级检查
对目标源系统和目标业务数据中心抽取数据过程进行,两边表符合条件的数据维度(列级)进行校验,以例得到两边数据维度(列级数据) 记录一样。特别在财务科目,成本科目,工程项目节点,商品SKUs等需要高度一致时。对项目范围内两边表进列级数据量比较时,若发现不一致情况推送到预警系统。

7.2.3. 数据单元格检查
数据单元格检查也即为字段级检查,对数据,数额,金额准确性要求高时,采用对每行记录的每个字段进行校验,并登记错误日志,再统一推送到预警系统。

7.3. 历史数据冷处理
在BI实施过程中会发现对于三年情的数据比较少机会再拿出来进行对比,包括明细数据和业务专业线条数据,而宏观数据是会拿出对比的,所以这部分数据我们可以作为冷数据进行处理,处理办法有两向外迁移数据,即向外备份数据。另一种办法是移动到读写性能相对较为慢的硬件设备中。

7.3.1. 外备处理
对于历史数据不会再进行访问的情况下可以抽取到分库分表,后备进行情况。对于汇总结果以便于跨年度统计分析的进行抽到年度表进行处理。

7.3.2. 降级访问速度处理
对于月度或季度进行不定时高层级数据统计对比的的数据,可使用二级存储体进行降速存储。通过分区分表分库的方式较高的明细数据进行物理形式迁移,可以非数据逻辑迁移。这样可以保持数据查询方式不变又同时可以访问历史数据。


若有什么需要修正请联系我: 林嘉诚, [email protected]