您的位置: 首页 > 文章 > Spark-ClickHouse-ES实时项目第四天-消费Kafka数据

Spark-ClickHouse-ES实时项目第四天-消费Kafka数据

分类: 文章 • 2024-07-14 18:14:16

仓库位置

日志生成：https://github.com/SmallScorpion/gmall-mock.git
日志服务器：https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git

需求

Spark-ClickHouse-ES实时项目第四天-消费Kafka数据

分析

做日活，取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做，但是会麻烦一点)
消费kafka中的数据。
利用redis过滤当日已经计入的日活设备
把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数据量变小之后保存到redis或者MDB中)
从ES中查询出数据，发布成数据接口，通可视化化工程调用。

消费Kafka数据测试

启动zookeeper和kafka
启动nginx和日志服务器
启动sparkstreaming
开启日志生成jar