大数据:数据采集平台之Splunk Forwarder

大数据:数据采集平台之Splunk Forwarder


  1. Apache Flume
    详情请看文章:《大数据:数据采集平台之Apache Flume

  2. Fluentd
    详情请看文章:《大数据:数据采集平台之Fluentd

  3. Logstash
    详情请看文章:《大数据:数据采集平台之Logstash

  4. Apache Chukwa
    详情请看文章:《大数据:数据采集平台之Apache Chukwa

  5. Scribe
    详情请看文章:《大数据:数据采集平台之Scribe

  6. Splunk Forwarder
    详情请看文章:《大数据:数据采集平台之Splunk Forwarder


官网: http://www.splunk.com/

Splunk是一个不开源的,商业化的大数据平台产品。Splunk提供完整的数据采集,数据存储,数据分析和处理,以及数据展现的能力。

Splunk是一个分布式的机器数据平台,主要有三个角色:

  1. Search Head负责数据的搜索和处理,提供搜索时的信息抽取。
  2. Indexer负责数据的存储和索引。
  3. Forwarder负责数据的收集,清洗,变形,并发送给Indexer。
    大数据:数据采集平台之Splunk Forwarder
    Splunk内置了对Syslog,TCP/UDP,Spooling的支持,同时,用户可以通过开发 Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。

这里要注意的是,Search Head和Indexer都支持Cluster的配置,也就是高可用,高扩展的,但是Splunk现在还没有针对Farwarder的Cluster的功能。也就是说如果有一台Farwarder的机器出了故障,数据收集也会随之中断,并不能把正在运行的数据采集任务Failover到其它的 Farwarder上。

参考https://mp.weixin.qq.com/s/emQ_94T0_Hw3ywQc0-4Dtg