数据治理 | 大纲汇总|技术栈简介(初篇)
前言
首先特别感谢订阅的小伙伴,希望接下来我们可以收获到更多的知识
为什么创建该专栏
1.技术分享,让基于某个功能点的技术快速掌握
2.技能提升,想通过该专栏大家相互学习,共同提升
3.结交挚友,学习道路之上免不了遇到困惑,如何快速突破,也是个人一直关注的方向(VX:zzhuan_1 备注****)
该专栏是个长久更新的专栏,所含章节会涉及到很多技术点,“佛系更新”,自然即使工作忙也会时刻总结 ,大家可以催更哦
(注:专栏文章主要技术点为主,业务场景尽量不会涉及太深(保密性),所以是十足的“干货”资料)
一、简介
本课程围绕“数据治理实践进阶”这一主题,系统性地梳理了大数据工程师必备的知识体系和技术技能,主要讲解数据治理产品设计与最佳实践、微服务架构设计最佳实践、DevOps最佳实践、ETL使用进阶、元数据治理框架进阶等。课程目标是帮助数据治理人员站在行业顶级公司的产品基础之上,迅速提升技术视野,在技术实力和工程实践两方面双管齐下,加速提升企业的全局数据治理能力,并帮助企业培养数据治理技术骨干
二、目标
深入理解并掌握数据治理相关理念以及架构设计
深入理解并掌握ETL工具使用
深入理解并掌握元数据治理框架Apache Atlas的使用
深入理解数据可视化展现方式以及应用
理解并掌握数据治理相关产品定位以及相互协作关系
掌握数据治理产品相关架构设计
三、受众人群
大数据工程师,DBA和开发技术骨干成员、开发技术负责人,研发经理和研发总监、研发架构师、DevOps资深工程师和技术负责人、技术创新团队的工程师。
四、课程大纲
大纲会根据实际技术总结情况,持续更新,以实际文章为主
4.1 数据治理理念进阶
系统性梳理了软件工程师必须掌握的数据治理的核心知识技能点,串讲各个每个维度概念,深入讲述数据治理念,从主数据、元数据、数据中台以及数据治理各个指标对数据治理进行宏观深度深度剖析,讲述各个系统的相互协作治理
什么是数据治理?
· 为什么要数据治理
· 数据治理中间件和框架
· 数据治理框架解读
· 主数据
· 元数据
· 数据标准体系
· 数据质量
· 评价考核体系
4.2 ETL工具使用技巧
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。本模块将介绍该模块的常用使用技巧
选择合适的ETL工具
· ETL工具初探
· ETL库表操作案例详解
· ETL对非关系型数据操作
· ETL插件初探
· 数据清洗
· ETL设计
· ETL定时
· ETL数据迁移
· ETL扩展
4.3 元数据治理Apache Atlas
Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力,本模块将讲解该框架的实践使用
元数据治理必要性
· 元数据在数据治理中角色
· 元数据治理框架介绍
· Atlas简介
· Atlas安装部署
· 元数据血缘分析
· 数据地图
· 智能匹配
· 元数据抽取
· 相关度分析
· 影响分析
· 数据模型
· 数据监控
4.4 数据可视化
数据可视化分析并展示庞杂数据的产品。旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。本模块将从数据治理的展示层介绍数据之“魅力”
数据可视化必要性
· 数据可视化角色定位
· 可视化相关组件/框架
· BI工具简介
· 事实表维表
· 数据建模
· 领导驾驶舱
4.5 数据治理产品协作
这里谈论目前数据治理产品相互协作,整体管控数据流向和质量,对当下业务场景产出的插件产品介绍,了解数据治理的整个产品脉络
数据治理相关产品介绍
· 数据治理仓库、中台等设计
· 产品分层、角色划分、产品协作
· 人员分配
4.6 数据治理架构设计
数据治理架构设计必须设计合理,才能不至拖垮整个系统。这里的内容会与当下主流行的DevOps、微服务等技术结合,讲解治理设计方案
微服务架构下的数据治理
· 架构设计细化设计
· 架构分层/模式
· 架构设计优劣势
· 云部署
· DevOps引入
End 未完待续,持续更新