综合项目1-01 项目背景与业务数据

(本项目为涛哥数据运营系统学习笔记)

1、项目背景

1.1 整体背景:

​ 需求1:需要针对线上访问行为、消费行为、业务行为进行统计分析!以支撑公司的业务运营,提高业务转化率,改善公司运营效果!

​ 解决:构建一个数仓系统,作为数据的管理和运算中心、数据存档、各种统计、运算任务的核心平台。


​ 需求2:基于数仓,针对每个用户进行精准营销,个性化推荐,改善用户体验、提高用记粘性、增大销售额。

​ 解决:对用户进行精准用户画像(深入分析用户后给用户打上各种规范标签:年龄、性别、地域特征、偏好特征、价值指数、行为习惯、消费习惯……)


​ 需求3:基于画像,开发推荐系统,用于支撑精细化营运:

​ 如:针对不同的人群发放不同的优惠券,定制不同的打折规则、推行不同的营销活动、针对流失率大的人群进行挽留。

​ 针对不同的人,不同的场景推荐不同的物品。


技术:可进行离线计算:如用户画像计算时间跨度长的,运算量大的任务

​ 可实时计算:统计推荐系统的营销手段进行实时效果反馈,运算相对简单的需求

 

1.2 技术架构

第一步:数据采集:数据源

​ 1、pc埋点,手机端埋点日志:使用Flume集群

​ 2、业务系统数据库:Sqoop

Flume:读取埋点日志传输到HDFS(离线)或Kafka(实时)

Sqoop:从业务数据库把数据进行迁移过来

第二步:对数据进行预处理(从非结构化转结构化)

​ 1、数据清洗

​ 2、信息回补(数据缺失)

​ 3、JSON解析

​ 4、GUID生成(同一个人数据全局区分开)

​ 5、数据集成等

第三步:数仓ODS层(结构化存储)加载到HIVE

​ 1、PC端埋点日志表

​ 2、移动端埋点日志表

​ 3、用户注册信息表

​ 4、订单信息表……

第四步:数仓DWD层(从ODS层算出来的中间表)、DWS层

​ 1、事件全量明细

​ 2、交互事件明细

​ 3、物流信息表

​ 4、广告事件明细

​ 5、商品信息表

​ 6、评论信息表

​ 7、流量事件明细

​ 8、订单信息表

第五步:数仓ADS层(从DWD中继续分析的层

​ 1、流量多维报表

​ 2、用户留存报表

​ 3、日新统计报表

​ 4、广告概况报表

​ 5、路径分析报表

​ 6、转化漏斗报表

第六步:数据服务层

​ 1、将数仓结果导入相应数据库中:MySQL/MSSQL/HBASE

​ 2、对于一些无法存放到数据库中数据:Presto内存跨数据源进行查询:直接对接HIVE或HDFS数据查询

第七步:应用层(WEB开发可视化:SpringBOOT MyBatis)

​ 1、推荐引擎精准推荐

​ 2、广告精准定向投放

​ 3、提供数据运营分析

其它组件:任务调度系统,完成数仓中各类运算任务调度azkaban

​ 元数据管理系统:atlas 各种各样的数据资产从数据日志,数据源,数仓数据统一建档分类管理

综合项目1-01 项目背景与业务数据

1.3 使用的技术

​ 采集:

​ flume: 分布式日志数据汇聚

​ sqoop: 离线批量抽取数据库

​ cannal: 实时数据库数据逐条监听、抽取

​ nginx: 前端

​ 存储:

​ hdfs:

​ mysql:

​ redis:

​ hbase/elastic search: 用户画像标签数据的存储查询服务

​ kafka: 实时计算的缓冲

​ 运算:

​ hive/mapreduce:

​ spark core/sql:

​ Flink/spark streaming:

 

​ OLAP引擎:

​ presto:联机数据

 

​ 数仓元数据管理(血缘管理):

​ atlas

综合项目1-01 项目背景与业务数据

2、业务数据

2.1 App/Web埋点日志

​ html/h5/app/weixin小程序埋点及后端埋点

埋点:植入一些用于搜集用户行为信息的代码,每个行为都是一条日志,发送给日志服务器

2.2 业务信息

维度信息:时间信息、地域信息、用户属性、终端属性、事件信息

​ 最终形式:一个json字符串信息

埋点文件:各个指标、事件类型、字段说明

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

综合项目1-01 项目背景与业务数据

UTM站外广告跟踪

在头条上投放了一个广告

广告的系列名称为: 双十一秒杀广告

广告的medium为:banner广告

广告的内容为: 双十一秒杀

广告所属的营销活动为:双十一大促

那么,为该广告所准备的“物料”的连接地址就形如:

http://www.doitedu.cn/home.html?utm_source=toutiao&utm_medium=banner&utm_content=doubleone&utm_campaign=doubleone

链接地址中的参数含义解释:

utm:“Urchin Traffic Monitor”的简写;

  1. utm_source:广告平台  sina,toutiao…….;
  2. utm_medium:广告的具体形式, banner,轮播图,弹窗,侧边栏…..等
  3. utm_content:指广告的具体内容,因为可能你有几个不同内容的广告版本——根据不同内容自己起个名字就行;
  4. utm_campaign:指你投放的广告,所属的营销活动名称

     

业务数据:CMS-文章 OMS-订单 PMS-商品 SMS-营销 UMS-用户

用户、商品、订单、购物车、评论、广告、文章、主题标题、视频等信息

coupon——优惠券

promotion——促销

recommend——推荐

product_ladder——产品分级

feight——运费(单拍)

product_full_reduction——产品满减

项目目前有71张数据表,业务逻辑有一定复杂度,平时做项目参考也够了。

综合项目1-01 项目背景与业务数据

2.3 业务数据库表说明

  • cms_*:内容管理模块相关表

  • oms_*:订单管理模块相关表

  • pms_*:商品模块相关表

  • sms_*:营销模块相关表

  • ums_*:会员模块相关表

    商品管理

    数据库表结构

    综合项目1-01 项目背景与业务数据

    功能结构

    综合项目1-01 项目背景与业务数据

    订单管理

    数据库表结构

    综合项目1-01 项目背景与业务数据

    功能结构

    综合项目1-01 项目背景与业务数据

    营销管理

    数据库表结构

    综合项目1-01 项目背景与业务数据

    功能结构

    综合项目1-01 项目背景与业务数据

    内容管理

    数据库表结构

    综合项目1-01 项目背景与业务数据

    功能结构

    综合项目1-01 项目背景与业务数据

    用户管理

    数据库表结构

    综合项目1-01 项目背景与业务数据