大数据面试相关生产经验—热点问题
生产经验—热点问题
1 元数据管理(Atlas血缘系统)
cnblogs.com/mantoudev/p/9986408.html
2 数据质量监控(Griffin)
2.1 为什么要做数据质量监控(2019年下半年)
1)数据不一致
企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。
2)数据不完整
由于企业没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
3)数据不合规
没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。
4)数据不可控
企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。同时,企业基础数据质量考核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。
5)数据冗余
各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。
2.2 建设方法
质量监管平台建设,主要包含如下8大流程步骤:
质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等;
提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准;
规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等;
执行检核:调度配置、调度执行、检核代码;
问题检核:检核问题展示、分类、质量分析、质量严重等级分类等;
分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识;
落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼;
知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。
2.3 监控指标
1)单表数据量监控
一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值
n SQL结果:var 数据量 = select count(*)from 表 where 时间等过滤条件
n 报警触发条件设置:如果数据量不在[数值下限, 数值上限], 则触发报警
n 同比增加:如果((本周的数据量 - 上周的数据量)/上周的数据量*100)不在 [比例下限,比例上限],则触发报警
n 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量*100)不在 [比例下限,比例上限],则触发报警
n 报警触发条件设置一定要有。如果没有配置的阈值,不能做监控
日活、周活、月活、留存(日周月)、转化率(日、周、月)GMV(日、周、月)
复购率(日周月)
2)单表空值检测
某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内
n 目标字段:选择要监控的字段,不能选“无”
n SQL结果:var 异常数据量 = select count(*) from 表 where 目标字段 is null
n 单次检测:如果(异常数据量)不在[数值下限, 数值上限],则触发报警
3)单表重复值检测
一个或多个字段是否满足某些规则
n 目标字段:选择要监控的字段,group by 这里的字段列表后,没有重复
n 单次检测:如果(异常数据量)不在[数值下限, 数值上限], 则触发报警
4)单表值域检测
一个或多个字段没有重复记录
n 目标字段:选择要监控的字段,支持多选
n 检测规则:填写“目标字段”要满足的条件。其中$1表示第一个目标字段,$2表示第二个目标字段,以此类推。上图中的“检测规则”经过渲染后变为“delivery_fee = delivery_fee_base+delivery_fee_extra”
n 阈值配置与“空值检测”相同
5)跨表数据量对比
主要针对同步流程,监控两张表的数据量是否一致
n SQL结果:count(本表) - count(关联表)
n 阈值配置与“空值检测”相同
3 数据治理
包括:数据质量管理、元数据管理、权限管理(ranger sentry)。
CDH cloudmanager-》sentry; HDP ambari=>ranger
数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题。
数据治理实施要点主要包含数据规划、制定数据标准、整理数据、搭建数据管理工具、构建运维体系及推广贯标六大部分,其中数据规划是纲领、制定数据标准是基础、整理数据是过程、搭建数据管理工具是技术手段、构建运维体系是前提,推广贯标是持续保障。
4 数据中台
mp.weixin.qq.com/s/nXI0nSSOneteIClA7dming
4.1 什么是中台?
在传统IT企业,项目的物理结构是什么样的呢?无论项目内部的如何复杂,都可分为“前台”和“后台”这两部分。
什么是前台?
首先,这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交互的界面,比如web页面,手机app;也包括服务端各种实时响应用户请求的业务逻辑,比如商品查询、订单系统等等。
什么是后台?
后台并不直接面向用户,而是面向运营人员的配置管理系统,比如商品管理、物流管理、结算管理。后台为前台提供了一些简单的配置。
4.2 传统项目痛点
痛点:重复造轮子。
4.3 各家中台
1)SuperCell公司
2)阿里巴巴提出了“大中台,小前台”的战略
3)华为提出了“平台炮火支撑精兵作战”的战略
4.4 中台具体划分
1)业务中台
2)技术中台
3)数据中台
4)算法中台
4.5 中台使用场景
1)从0到1的阶段,没有必要搭建中台。
从0到1的创业型公司,首要目的是生存下去,以最快的速度打造出产品,证明自身的市场价值。
这个时候,让项目野蛮生长才是最好的选择。如果不慌不忙地先去搭建中台,恐怕中台还没搭建好,公司早就饿死了。
2)从1到N的阶段,适合搭建中台。
当企业有了一定规模,产品得到了市场的认可,这时候公司的首要目的不再是活下去,而是活的更好。
这个时候,趁着项目复杂度还不是特别高,可以考虑把各项目的通用部分下沉,组建中台,以方便后续新项目的尝试和旧项目的迭代。
3)从N到N+1的阶段,搭建中台势在必行。
当企业已经有了很大的规模,各种产品、服务、部门错综复杂,这时候做架构调整会比较痛苦。
但是长痛不如短痛,为了项目的长期发展,还是需要尽早调整架构,实现平台化,以免日后越来越难以维护。
5 数据湖
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。
6 埋点
免费的埋点:上课演示
收费的卖点:神策 https://mp.weixin.qq.com/s/Xp3-alWF4XHvKDP9rNWCoQ
目前主流的埋点方式,有代码埋点(前端/后端)、可视化埋点、全埋点三种。
代码埋点是通过调用埋点SDK函数,在需要埋点的业务逻辑功能位置调用接口,上报埋点数据。例如,我们对页面中的某个按钮埋点后,当这个按钮被点击时,可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口,来发送数据。
可视化埋点只需要研发人员集成采集 SDK,不需要写埋点代码,业务人员就可以通过访问分析平台的“圈选”功能,来“圈”出需要对用户行为进行捕捉的控件,并对该事件进行命名。圈选完毕后,这些配置会同步到各个用户的终端上,由采集 SDK 按照圈选的配置自动进行用户行为数据的采集和发送。
全埋点是通过在产品中嵌入SDK,前端自动采集页面上的全部用户行为事件,上报埋点数据,相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。
7 电商运营经验
7.1 电商8类基本指标
8)市场竞争指标:主要分析市场份额以及网站排名,进一步进行调整
7.2 直播指标