Spark实时流统计网站日志--2、项目技术选型和项目架构
一、项目技术选型
基于 Spark实时流统计网站日志–1、项目介绍 ,选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下:
flume_kafka_spark集成数据流向图,红色箭头为数据流向,当数据经过Spark Streaming处理后,存入HBase,然后在web上展示。具体的做法见后续文章。
二、组件使用版本
- hadoop2.7.7
- spark-2.1.1
- hbase-1.3.1
- kafka_2.11-0.11.0.2
- Flume1.6.0
- zookeeper-3.4.11
- jdk1.8.0_151
- scala 2.11.8
- 开发工具 IDEA 2017.2
三、本项目一些约定
- Hadoop集群及各个组件的搭建不涉及,自行查找
- 项目开发中包名以 project.weblog.ylqdh.bigdata 开头
- hadoop集群安装 ubuntu16.04.5-server 虚拟机下,开发在win10上
- 项目的代码放在github上 ylqdh的Github
- 项目的服务器ip及对应如下表:
| IP | hostname | 服务器在文章中的名称 |
| 172.16.13.150 | redhat-test | 服务器A |
| 172.16.13.151 | szgwnet01 | 服务器B |
| 172.16.13.152 | szgwnet02 | 服务器C |
| 172.16.13.153 | szgwnet03 | 服务器D |