您的位置: 首页 > 文章 > 大数据：简述对数据采集平台的认识

大数据：简述对数据采集平台的认识

分类: 文章 • 2023-12-23 13:18:34

大数据：简述对数据采集平台的认识

一、数据采集平台的认识

任何完整的大数据平台，一般包括以下的几个过程：
数据采集–>数据存储–>数据处理–>数据展现(可视化，报表和监控)
大数据：简述对数据采集平台的认识
其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括好多因素，如下：

数据源多种多样
数据量大
变化快
如何保证数据采集的可靠性的性能
如何避免重复数据
如何保证数据的质量

接下来，简单介绍当前可用的六款数据采集的产品，关注它们是如何做到高可靠，高性能和高扩展。

二、数据采集平台的产品

Apache Flume
详情请看文章：《大数据：数据采集平台之Apache Flume》
Fluentd
详情请看文章：《大数据：数据采集平台之Fluentd》
Logstash
详情请看文章：《大数据：数据采集平台之Logstash》
Apache Chukwa
详情请看文章：《大数据：数据采集平台之Apache Chukwa 》
Scribe
详情请看文章：《大数据：数据采集平台之Scribe 》
Splunk Forwarder
详情请看文章：《大数据：数据采集平台之Splunk Forwarder》

三、总结

上述几种流行的数据收集平台，它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入，输出和中间的缓冲的架构。利用分布式的网络连接，大多数平台都能实现一定程度的扩展性和高可靠性。

其中Flume，Fluentd是两个被使用较多的产品。如果你用ElasticSearch，Logstash也许是首选，因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃，不推荐使用。

Splunk作为一个优秀的商业产品，它的数据采集还存在一定的限制。

参考：https://mp.weixin.qq.com/s/emQ_94T0_Hw3ywQc0-4Dtg