项目实战:电子商务消费行为分析

运行zeppelin

需求概述

对某零售企业最近1年门店收集的数据进行数据分析
潜在客户画像
用户消费统计
门店的资源利用率
消费的特征人群定位
数据的可视化展现

环境设置-zeppelin

项目实战:电子商务消费行为分析

数据结构

customer表

language字段数据存在错误
项目实战:电子商务消费行为分析

transaction表

表中transaction_id有重复,但数据有效,需要修复数据
项目实战:电子商务消费行为分析

store表

项目实战:电子商务消费行为分析

review表

表中无效的score数据表中有将transaction_id映射到错误的store_id项目实战:电子商务消费行为分析
customer_details、transaction_details、store_details、store_review
项目实战:电子商务消费行为分析

检查行数和header行

上传数据到hdfs

项目实战:电子商务消费行为分析
项目实战:电子商务消费行为分析

创建适当的外部表来保存数据

项目实战:电子商务消费行为分析

数据获取

项目实战:电子商务消费行为分析

查看并了解数据

项目实战:电子商务消费行为分析

数据清洗

建新表

对transaction_details中的重复数据生成新ID
过滤掉store_review中没有评分的数据
可以把清洗好的数据放到另一个表或者用View表示
找出PII (personal information identification) 或PCI (personal confidential information) 数据进行加密或hash
重新组织transaction数据按照日期YYYY-MM做分区
项目实战:电子商务消费行为分析
md5单向加密,保证数据的有效性
where语句都是向左执行的

插入清洗后的数据

项目实战:电子商务消费行为分析
insert into 增量导入
insert overwrite 全量导入

基于hive的数据分析

6.1找出顾客最常用的信用卡
6.2找出客户资料中排名前五的职位名称
6.3在美国女性最常用的信用卡
6.4按性别和国家进行客户统计
项目实战:电子商务消费行为分析