数据采集阶段技术对比(flume,kafka,sqoop)
数据采集技术
数据收集架构
Kafka架构图
集群由zookeeper管理
Kafka的特点:
1. 磁盘存储
2. 高吞吐率(每秒几十万条消息)
3. 分布式架构,能对消息进行分析
4. 将数据并行加载到hadoop分区
Flume 架构图
1. agent:就是将数据源的数据发送给collector
2. Collector:将数据源汇总给storage
3. Storage :存储数据
4. Master管理整个集群
Flume设计目标
可靠性:就是发生故障自动转移,当发生节点故障了,会传到其他节点,日志数据不会丢失
End-to-end:agent数据,当我们的数据传送成功后,就删除。如果传送是失败了,就重新发送
Store on failure:
Best effort
Sqoop 架构图
常见日志收集系统对比