Flume
Flume
文章目录
1.为什么用Flume
1.海量日志采集,聚合和传输的系统
2.支持在日志系统中定制各类数据发送方,用于收集数据
3.提供对数据进行简单处理,可写到各种数据接收方。
比如将AAA开头的数据放在一个目录中
将BBB开投的放在一个目录中
2.Flume可靠性
提供了3中可靠性模式
End-to-end
Store on failure
Best effort
3.Flume版本
一开始Flume由Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
然后人们将Flume纳入Apache Hadoop体系中。
4.Flume OG
比较繁琐
5.Flume NG
5.1 图1
摒弃了Zookeeper,Master
可以在其中的Agent看做一个工厂,Source为生产,Channel为存储,Sink为销售。
我们只需要知道如何接收。
和最终将数据给谁。(Hbase,HDFS)
5.2 图2
5.3 图3
第二个图是两个Agent拼接起来,相当与两个工厂拼接起来
5.4 图4
第三个图比较复杂,相当于多个Agent实现。
第四幅图为一个Agent可以输出来HDFS或者是JMS或者是下一个工厂。
5.总结
一个Source对一个多个Channel - 一个货可以放在多个仓库中。
一个Channel对于多个Sink - 一个仓库对于多个缓存中
一个Sink对于一个Channel - 一个缓存对于一个仓库
5.1 Channel
存储的为缓存,jdbc,和一些文件
5.2 Sink
发送的组件,存储可以发送的发送方
5.3 Source
产生的货物(数据)