综合项目1-01 项目背景与业务数据
(本项目为涛哥数据运营系统学习笔记)
1、项目背景
1.1 整体背景:
需求1:需要针对线上访问行为、消费行为、业务行为进行统计分析!以支撑公司的业务运营,提高业务转化率,改善公司运营效果!
解决:构建一个数仓系统,作为数据的管理和运算中心、数据存档、各种统计、运算任务的核心平台。
需求2:基于数仓,针对每个用户进行精准营销,个性化推荐,改善用户体验、提高用记粘性、增大销售额。
解决:对用户进行精准用户画像(深入分析用户后给用户打上各种规范标签:年龄、性别、地域特征、偏好特征、价值指数、行为习惯、消费习惯……)
需求3:基于画像,开发推荐系统,用于支撑精细化营运:
如:针对不同的人群发放不同的优惠券,定制不同的打折规则、推行不同的营销活动、针对流失率大的人群进行挽留。
针对不同的人,不同的场景推荐不同的物品。
技术:可进行离线计算:如用户画像计算时间跨度长的,运算量大的任务
可实时计算:统计推荐系统的营销手段进行实时效果反馈,运算相对简单的需求
1.2 技术架构
第一步:数据采集:数据源
1、pc埋点,手机端埋点日志:使用Flume集群
2、业务系统数据库:Sqoop
Flume:读取埋点日志传输到HDFS(离线)或Kafka(实时)
Sqoop:从业务数据库把数据进行迁移过来
第二步:对数据进行预处理(从非结构化转结构化)
1、数据清洗
2、信息回补(数据缺失)
3、JSON解析
4、GUID生成(同一个人数据全局区分开)
5、数据集成等
第三步:数仓ODS层(结构化存储)加载到HIVE
1、PC端埋点日志表
2、移动端埋点日志表
3、用户注册信息表
4、订单信息表……
第四步:数仓DWD层(从ODS层算出来的中间表)、DWS层
1、事件全量明细
2、交互事件明细
3、物流信息表
4、广告事件明细
5、商品信息表
6、评论信息表
7、流量事件明细
8、订单信息表
第五步:数仓ADS层(从DWD中继续分析的层)
1、流量多维报表
2、用户留存报表
3、日新统计报表
4、广告概况报表
5、路径分析报表
6、转化漏斗报表
第六步:数据服务层
1、将数仓结果导入相应数据库中:MySQL/MSSQL/HBASE
2、对于一些无法存放到数据库中数据:Presto内存跨数据源进行查询:直接对接HIVE或HDFS数据查询
第七步:应用层(WEB开发可视化:SpringBOOT MyBatis)
1、推荐引擎精准推荐
2、广告精准定向投放
3、提供数据运营分析
其它组件:任务调度系统,完成数仓中各类运算任务调度azkaban
元数据管理系统:atlas 各种各样的数据资产从数据日志,数据源,数仓数据统一建档分类管理
1.3 使用的技术
采集:
flume: 分布式日志数据汇聚
sqoop: 离线批量抽取数据库
cannal: 实时数据库数据逐条监听、抽取
nginx: 前端
存储:
hdfs:
mysql:
redis:
hbase/elastic search: 用户画像标签数据的存储查询服务
kafka: 实时计算的缓冲
运算:
hive/mapreduce:
spark core/sql:
Flink/spark streaming:
OLAP引擎:
presto:联机数据
数仓元数据管理(血缘管理):
atlas
2、业务数据
2.1 App/Web埋点日志
html/h5/app/weixin小程序埋点及后端埋点
埋点:植入一些用于搜集用户行为信息的代码,每个行为都是一条日志,发送给日志服务器
2.2 业务信息
维度信息:时间信息、地域信息、用户属性、终端属性、事件信息
最终形式:一个json字符串信息
埋点文件:各个指标、事件类型、字段说明
UTM站外广告跟踪:
在头条上投放了一个广告
广告的系列名称为: 双十一秒杀广告
广告的medium为:banner广告
广告的内容为: 双十一秒杀
广告所属的营销活动为:双十一大促
那么,为该广告所准备的“物料”的连接地址就形如:
http://www.doitedu.cn/home.html?utm_source=toutiao&utm_medium=banner&utm_content=doubleone&utm_campaign=doubleone
链接地址中的参数含义解释:
utm:“Urchin Traffic Monitor”的简写;
- utm_source:广告平台 sina,toutiao…….;
- utm_medium:广告的具体形式, banner,轮播图,弹窗,侧边栏…..等
- utm_content:指广告的具体内容,因为可能你有几个不同内容的广告版本——根据不同内容自己起个名字就行;
- utm_campaign:指你投放的广告,所属的营销活动名称
业务数据:CMS-文章 OMS-订单 PMS-商品 SMS-营销 UMS-用户
用户、商品、订单、购物车、评论、广告、文章、主题标题、视频等信息
coupon——优惠券
promotion——促销
recommend——推荐
product_ladder——产品分级
feight——运费(单拍)
product_full_reduction——产品满减
项目目前有71张数据表,业务逻辑有一定复杂度,平时做项目参考也够了。
2.3 业务数据库表说明
-
cms_*:内容管理模块相关表
-
oms_*:订单管理模块相关表
-
pms_*:商品模块相关表
-
sms_*:营销模块相关表
-
ums_*:会员模块相关表
商品管理
数据库表结构
功能结构
订单管理
数据库表结构
功能结构
营销管理
数据库表结构
功能结构
内容管理
数据库表结构
功能结构
用户管理
数据库表结构