hadoop离线数据处理架构

数据处理流程
1）数据采集
Flume： web日志写入到HDFS

2）数据清洗
脏数据
Spark、Hive、MapReduce 或者是其他的一些分布式计算框架
清洗完之后的数据可以存放在HDFS(Hive/Spark SQL)

3）数据处理
按照我们的需要进行相应业务的统计和分析
Spark、Hive、MapReduce 或者是其他的一些分布式计算框架

4）处理结果入库
结果可以存放到RDBMS、NoSQL

5）数据的可视化
通过图形化展示的方式展现出来：饼图、柱状图、地图、折线图
ECharts、HUE、Zeppelin
hadoop离线数据处理架构
链接：https://www.cnblogs.com/arthurLance/p/10629316.html

或者：
各组件的简介
Hadoop:HDFS MR(清洗)YARN、需要部署hadoop集群
Hive：外部表、SQL、解决数据倾斜、sql优化、基于元数据管理、SQL到MR过程
Flume：将数据抽取到hdfs
调度：crontab、shell、Azkaban
HUE：可视化的notebook，CM自带，排查数据
使用Flume/logstash抽取服务器上的日志数据以及使用sqoop/spark抽取关系型数据库的数据，将数据抽取到HDFS（压缩+普通文本格式）。将hdfs上数据通过（MR/Spark/Flink）清洗出来后存放数仓（hive）将原始的数据放到目标位置（hive的外部表）业务计算，将结果放到业务表（数据集市）应用程序查询访问，我们这个可通过HUE查看信息

hadoop离线数据处理架构
流程及注意点

备注1：HUE是个非常强大且方便的可视化界面。在界面能操作hadoop生态圈的组件以及查询查询组件显示信息。使用场景：排查数据
备注2: zeppelin和HUE较类似的一个工具，但是比HUE好用，目前市场主流是以改zeppelin源码去做自己的可视化界面。
备注3：步骤2、3、4,的数据落地hdfs时，数据压缩格式、数据的存储格式选择很重要

hadoop离线数据处理架构

相关推荐