大数据:简述对数据采集平台的认识
大数据:简述对数据采集平台的认识
一、数据采集平台的认识
任何完整的大数据平台,一般包括以下的几个过程:
数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)
其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括好多因素,如下:
- 数据源多种多样
- 数据量大
- 变化快
- 如何保证数据采集的可靠性的性能
- 如何避免重复数据
- 如何保证数据的质量
接下来,简单介绍当前可用的六款数据采集的产品,关注它们是如何做到高可靠,高性能和高扩展。
二、数据采集平台的产品
-
Apache Flume
详情请看文章:《大数据:数据采集平台之Apache Flume》 -
Fluentd
详情请看文章:《大数据:数据采集平台之Fluentd》 -
Logstash
详情请看文章:《大数据:数据采集平台之Logstash》 -
Apache Chukwa
详情请看文章:《大数据:数据采集平台之Apache Chukwa 》 -
Scribe
详情请看文章:《大数据:数据采集平台之Scribe 》 -
Splunk Forwarder
详情请看文章:《大数据:数据采集平台之Splunk Forwarder》
三、总结
上述几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。
其中Flume,Fluentd是两个被使用较多的产品。如果你用ElasticSearch,Logstash也许是首选,因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃,不推荐使用。
Splunk作为一个优秀的商业产品,它的数据采集还存在一定的限制。