Spark实时流统计网站日志--2、项目技术选型和项目架构

一、项目技术选型

基于 Spark实时流统计网站日志–1、项目介绍，选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下：
Spark实时流统计网站日志--2、项目技术选型和项目架构
flume_kafka_spark集成数据流向图，红色箭头为数据流向，当数据经过Spark Streaming处理后，存入HBase，然后在web上展示。具体的做法见后续文章。

二、组件使用版本

hadoop2.7.7
spark-2.1.1
hbase-1.3.1
kafka_2.11-0.11.0.2
Flume1.6.0
zookeeper-3.4.11
jdk1.8.0_151
scala 2.11.8
开发工具 IDEA 2017.2

三、本项目一些约定

Hadoop集群及各个组件的搭建不涉及，自行查找
项目开发中包名以 project.weblog.ylqdh.bigdata 开头
hadoop集群安装 ubuntu16.04.5-server 虚拟机下，开发在win10上
项目的代码放在github上 ylqdh的Github
项目的服务器ip及对应如下表：
|        IP              | hostname | 服务器在文章中的名称 |
| 172.16.13.150 | redhat-test |    服务器A   |
| 172.16.13.151 | szgwnet01 |   服务器B   |
| 172.16.13.152 | szgwnet02 |   服务器C   |
| 172.16.13.153 | szgwnet03 |   服务器D   |

Spark实时流统计网站日志--2、项目技术选型和项目架构

一、项目技术选型

二、组件使用版本

三、本项目一些约定

相关推荐