Spark实时流统计网站日志--2、项目技术选型和项目架构

一、项目技术选型

    基于 Spark实时流统计网站日志–1、项目介绍 ,选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下:
Spark实时流统计网站日志--2、项目技术选型和项目架构
      flume_kafka_spark集成数据流向图,红色箭头为数据流向,当数据经过Spark Streaming处理后,存入HBase,然后在web上展示。具体的做法见后续文章。

二、组件使用版本

  • hadoop2.7.7
  • spark-2.1.1
  • hbase-1.3.1
  • kafka_2.11-0.11.0.2
  • Flume1.6.0
  • zookeeper-3.4.11
  • jdk1.8.0_151
  • scala 2.11.8
  • 开发工具 IDEA 2017.2

三、本项目一些约定

  • Hadoop集群及各个组件的搭建不涉及,自行查找
  • 项目开发中包名以 project.weblog.ylqdh.bigdata 开头
  • hadoop集群安装 ubuntu16.04.5-server 虚拟机下,开发在win10上
  • 项目的代码放在github上 ylqdh的Github
  • 项目的服务器ip及对应如下表:
    |        IP              |  hostname  | 服务器在文章中的名称 |
    | 172.16.13.150 | redhat-test |    服务器A   |
    | 172.16.13.151 | szgwnet01  |   服务器B   |
    | 172.16.13.152 | szgwnet02   |   服务器C   |
    | 172.16.13.153 | szgwnet03  |   服务器D   |