大数据:简述对数据采集平台的认识

大数据:简述对数据采集平台的认识


一、数据采集平台的认识

任何完整的大数据平台,一般包括以下的几个过程:
      数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)
大数据:简述对数据采集平台的认识
其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括好多因素,如下:

  1. 数据源多种多样
  2. 数据量大
  3. 变化快
  4. 如何保证数据采集的可靠性的性能
  5. 如何避免重复数据
  6. 如何保证数据的质量

接下来,简单介绍当前可用的六款数据采集的产品,关注它们是如何做到高可靠,高性能和高扩展。

二、数据采集平台的产品

  1. Apache Flume
    详情请看文章:《大数据:数据采集平台之Apache Flume

  2. Fluentd
    详情请看文章:《大数据:数据采集平台之Fluentd

  3. Logstash
    详情请看文章:《大数据:数据采集平台之Logstash

  4. Apache Chukwa
    详情请看文章:《大数据:数据采集平台之Apache Chukwa

  5. Scribe
    详情请看文章:《大数据:数据采集平台之Scribe

  6. Splunk Forwarder
    详情请看文章:《大数据:数据采集平台之Splunk Forwarder

三、总结

上述几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

其中Flume,Fluentd是两个被使用较多的产品。如果你用ElasticSearch,Logstash也许是首选,因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃,不推荐使用。

Splunk作为一个优秀的商业产品,它的数据采集还存在一定的限制。

参考:https://mp.weixin.qq.com/s/emQ_94T0_Hw3ywQc0-4Dtg