大数据：数据采集平台之Splunk Forwarder

Apache Flume
详情请看文章：《大数据：数据采集平台之Apache Flume》
Fluentd
详情请看文章：《大数据：数据采集平台之Fluentd》
Logstash
详情请看文章：《大数据：数据采集平台之Logstash》
Apache Chukwa
详情请看文章：《大数据：数据采集平台之Apache Chukwa 》
Scribe
详情请看文章：《大数据：数据采集平台之Scribe 》
Splunk Forwarder
详情请看文章：《大数据：数据采集平台之Splunk Forwarder》

Splunk是一个不开源的，商业化的大数据平台产品。Splunk提供完整的数据采集，数据存储，数据分析和处理，以及数据展现的能力。

Splunk是一个分布式的机器数据平台，主要有三个角色：

Search Head负责数据的搜索和处理，提供搜索时的信息抽取。
Indexer负责数据的存储和索引。
Forwarder负责数据的收集，清洗，变形，并发送给Indexer。

Splunk内置了对Syslog，TCP/UDP，Spooling的支持，同时，用户可以通过开发 Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用，例如AWS，数据库(DBConnect)等等，可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。

这里要注意的是，Search Head和Indexer都支持Cluster的配置，也就是高可用，高扩展的，但是Splunk现在还没有针对Farwarder的Cluster的功能。也就是说如果有一台Farwarder的机器出了故障，数据收集也会随之中断，并不能把正在运行的数据采集任务Failover到其它的 Farwarder上。

参考：https://mp.weixin.qq.com/s/emQ_94T0_Hw3ywQc0-4Dtg

大数据：数据采集平台之Splunk Forwarder

大数据：数据采集平台之Splunk Forwarder

相关推荐