生产经验—热点问题

1 元数据管理（Atlas血缘系统）

cnblogs.com/mantoudev/p/9986408.html

2 数据质量监控（Griffin）

2.1 为什么要做数据质量监控（2019年下半年）

1)数据不一致

企业早期没有进行统一规划设计，大部分信息系统是逐步迭代建设的，系统建设时间长短各异，各系统数据标准也不同。企业业务系统更关注业务层面，各个业务系统均有不同的侧重点，各类数据的属性信息设置和要求不统一。

2)数据不完整

由于企业没有统一的录入工具和数据出口，业务系统不需要的信息就不录，造成同样的数据在不同的系统有不同的属性信息，数据完整性无法得到保障。

3)数据不合规

没有统一的数据管理平台和数据源头，数据全生命周期管理不完整，同时企业各信息系统的数据录入环节过于简单且手工参与较多，就数据本身而言，缺少是否重复、合法、对错等校验环节，导致各个信息系统的数据不够准确，格式混乱，各类数据难以集成和统一，没有质量控制导致海量数据因质量过低而难以被利用，且没有相应的数据管理流程。

4)数据不可控

企业各单位和部门关注数据的角度不一样，缺少一个组织从全局的视角对数据进行管理，导致无法建立统一的数据管理标准、流程等，相应的数据管理制度、办法等无法得到落实。同时，企业基础数据质量考核体系也尚未建立，无法保障一系列数据标准、规范、制度、流程得到长效执行。

5)数据冗余

各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一，且部分业务系统针对数据的验证标准严重缺失，造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。

2.2 建设方法

大数据面试相关生产经验—热点问题

质量监管平台建设，主要包含如下8大流程步骤：

质量需求：发现数据问题；信息提报、收集需求；检核规则的需求等；

提炼规则：梳理规则指标、确定有效指标、检核指标准确度和衡量标准；

规则库构建：检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等；

执行检核：调度配置、调度执行、检核代码；

问题检核：检核问题展示、分类、质量分析、质量严重等级分类等；

分析报告：数据质量报告、质量问题趋势分析，影响度分析，解决方案达成共识；

落实处理：方案落实执行、跟踪管理、解决方案Review及标准化提炼；

知识库体系形成：知识经验总结、标准方案沉淀、知识库体系建设。

2.3 监控指标

1）单表数据量监控

一张表的记录数在一个已知的范围内，或者上下浮动不会超过某个阈值

n SQL结果：var 数据量 = select count（*）from 表 where 时间等过滤条件

n 报警触发条件设置：如果数据量不在[数值下限, 数值上限]，则触发报警

n 同比增加：如果((本周的数据量 - 上周的数据量)/上周的数据量*100)不在 [比例下限，比例上限]，则触发报警

n 环比增加：如果((今天的数据量 - 昨天的数据量)/昨天的数据量*100)不在 [比例下限，比例上限]，则触发报警

n 报警触发条件设置一定要有。如果没有配置的阈值，不能做监控

日活、周活、月活、留存（日周月）、转化率（日、周、月）GMV（日、周、月）

复购率（日周月）

2）单表空值检测

某个字段为空的记录数在一个范围内，或者占总量的百分比在某个阈值范围内

n 目标字段：选择要监控的字段，不能选“无”

n SQL结果：var 异常数据量 = select count(*) from 表 where 目标字段 is null

n 单次检测：如果(异常数据量)不在[数值下限, 数值上限]，则触发报警

3）单表重复值检测

一个或多个字段是否满足某些规则

n 目标字段：选择要监控的字段，group by 这里的字段列表后，没有重复

n 单次检测：如果(异常数据量)不在[数值下限, 数值上限]，则触发报警

4）单表值域检测

一个或多个字段没有重复记录

n 目标字段：选择要监控的字段，支持多选

n 检测规则：填写“目标字段”要满足的条件。其中$1表示第一个目标字段，$2表示第二个目标字段，以此类推。上图中的“检测规则”经过渲染后变为“delivery_fee = delivery_fee_base+delivery_fee_extra”

n 阈值配置与“空值检测”相同

5）跨表数据量对比

主要针对同步流程，监控两张表的数据量是否一致

n SQL结果：count(本表) - count(关联表)

n 阈值配置与“空值检测”相同

3 数据治理

包括：数据质量管理、元数据管理、权限管理（ranger sentry）。

CDH cloudmanager-》sentry； HDP ambari=>ranger

数据治理是一个复杂的系统工程，涉及到企业和单位多个领域，既要做好顶层设计，又要解决好统一标准、统一流程、统一管理体系等问题，同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题。

数据治理实施要点主要包含数据规划、制定数据标准、整理数据、搭建数据管理工具、构建运维体系及推广贯标六大部分，其中数据规划是纲领、制定数据标准是基础、整理数据是过程、搭建数据管理工具是技术手段、构建运维体系是前提，推广贯标是持续保障。

大数据面试相关生产经验—热点问题

4 数据中台

mp.weixin.qq.com/s/nXI0nSSOneteIClA7dming

4.1 什么是中台？

在传统IT企业，项目的物理结构是什么样的呢？无论项目内部的如何复杂，都可分为“前台”和“后台”这两部分。

什么是前台？

首先，这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交互的界面，比如web页面，手机app；也包括服务端各种实时响应用户请求的业务逻辑，比如商品查询、订单系统等等。

什么是后台？

后台并不直接面向用户，而是面向运营人员的配置管理系统，比如商品管理、物流管理、结算管理。后台为前台提供了一些简单的配置。

大数据面试相关生产经验—热点问题

4.2 传统项目痛点

痛点：重复造轮子。

大数据面试相关生产经验—热点问题

4.3 各家中台

1）SuperCell公司

大数据面试相关生产经验—热点问题

2）阿里巴巴提出了“大中台，小前台”的战略

大数据面试相关生产经验—热点问题

3）华为提出了“平台炮火支撑精兵作战”的战略

大数据面试相关生产经验—热点问题

4.4 中台具体划分

1）业务中台

大数据面试相关生产经验—热点问题

2）技术中台

大数据面试相关生产经验—热点问题

3）数据中台

大数据面试相关生产经验—热点问题

4）算法中台

大数据面试相关生产经验—热点问题

4.5 中台使用场景

1）从0到1的阶段，没有必要搭建中台。

从0到1的创业型公司，首要目的是生存下去，以最快的速度打造出产品，证明自身的市场价值。

这个时候，让项目野蛮生长才是最好的选择。如果不慌不忙地先去搭建中台，恐怕中台还没搭建好，公司早就饿死了。

2）从1到N的阶段，适合搭建中台。

当企业有了一定规模，产品得到了市场的认可，这时候公司的首要目的不再是活下去，而是活的更好。

这个时候，趁着项目复杂度还不是特别高，可以考虑把各项目的通用部分下沉，组建中台，以方便后续新项目的尝试和旧项目的迭代。

3）从N到N+1的阶段，搭建中台势在必行。

当企业已经有了很大的规模，各种产品、服务、部门错综复杂，这时候做架构调整会比较痛苦。

但是长痛不如短痛，为了项目的长期发展，还是需要尽早调整架构，实现平台化，以免日后越来越难以维护。

5 数据湖

数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。

目前，Hadoop是最常用的部署数据湖的技术，所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念，而Hadoop是用于实现这个概念的技术。

大数据面试相关生产经验—热点问题

6 埋点

免费的埋点：上课演示

收费的卖点：神策 https://mp.weixin.qq.com/s/Xp3-alWF4XHvKDP9rNWCoQ

目前主流的埋点方式，有代码埋点（前端/后端）、可视化埋点、全埋点三种。

代码埋点是通过调用埋点SDK函数，在需要埋点的业务逻辑功能位置调用接口，上报埋点数据。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

可视化埋点只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。圈选完毕后，这些配置会同步到各个用户的终端上，由采集 SDK 按照圈选的配置自动进行用户行为数据的采集和发送。

全埋点是通过在产品中嵌入SDK，前端自动采集页面上的全部用户行为事件，上报埋点数据，相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。

7 电商运营经验

7.1 电商8类基本指标

大数据面试相关生产经验—热点问题

8）市场竞争指标：主要分析市场份额以及网站排名，进一步进行调整

大数据面试相关生产经验—热点问题

7.2 直播指标

大数据面试相关生产经验—热点问题

大数据培训

大数据面试相关生产经验—热点问题

生产经验—热点问题

1 元数据管理（Atlas血缘系统）

cnblogs.com/mantoudev/p/9986408.html

2 数据质量监控（Griffin）

2.1 为什么要做数据质量监控（2019年下半年）

2.2 建设方法

2.3 监控指标

3 数据治理

4 数据中台

4.1 什么是中台？

4.2 传统项目痛点

4.3 各家中台

4.4 中台具体划分

4.5 中台使用场景

5 数据湖

6 埋点

7 电商运营经验

7.1 电商8类基本指标

7.2 直播指标

相关推荐