Spark-ClickHouse-ES实时项目第四天-消费Kafka数据
仓库位置
日志生成:https://github.com/SmallScorpion/gmall-mock.git
日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git
需求
分析
- 做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)
- 消费kafka中的数据。
- 利用redis过滤当日已经计入的日活设备
- 把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数据量变小之后保存到redis或者MDB中)
- 从ES中查询出数据,发布成数据接口,通可视化化工程调用。
消费Kafka数据测试
- 启动zookeeper和kafka
- 启动nginx和日志服务器
- 启动sparkstreaming
- 开启日志生成jar