项目实战:电子商务消费行为分析
消费行为分析
运行zeppelin
需求概述
对某零售企业最近1年门店收集的数据进行数据分析
潜在客户画像
用户消费统计
门店的资源利用率
消费的特征人群定位
数据的可视化展现
环境设置-zeppelin
数据结构
customer表
language字段数据存在错误
transaction表
表中transaction_id有重复,但数据有效,需要修复数据
store表
review表
表中无效的score数据表中有将transaction_id映射到错误的store_id
customer_details、transaction_details、store_details、store_review
检查行数和header行
上传数据到hdfs
创建适当的外部表来保存数据
数据获取
查看并了解数据
数据清洗
建新表
对transaction_details中的重复数据生成新ID
过滤掉store_review中没有评分的数据
可以把清洗好的数据放到另一个表或者用View表示
找出PII (personal information identification) 或PCI (personal confidential information) 数据进行加密或hash
重新组织transaction数据按照日期YYYY-MM做分区
md5单向加密,保证数据的有效性
where语句都是向左执行的
插入清洗后的数据
insert into 增量导入
insert overwrite 全量导入
基于hive的数据分析
6.1找出顾客最常用的信用卡
6.2找出客户资料中排名前五的职位名称
6.3在美国女性最常用的信用卡
6.4按性别和国家进行客户统计