大数据:数据采集平台之Splunk Forwarder
大数据:数据采集平台之Splunk Forwarder
-
Apache Flume
详情请看文章:《大数据:数据采集平台之Apache Flume》 -
Fluentd
详情请看文章:《大数据:数据采集平台之Fluentd》 -
Logstash
详情请看文章:《大数据:数据采集平台之Logstash》 -
Apache Chukwa
详情请看文章:《大数据:数据采集平台之Apache Chukwa 》 -
Scribe
详情请看文章:《大数据:数据采集平台之Scribe 》 -
Splunk Forwarder
详情请看文章:《大数据:数据采集平台之Splunk Forwarder》
Splunk是一个不开源的,商业化的大数据平台产品。Splunk提供完整的数据采集,数据存储,数据分析和处理,以及数据展现的能力。
Splunk是一个分布式的机器数据平台,主要有三个角色:
- Search Head负责数据的搜索和处理,提供搜索时的信息抽取。
- Indexer负责数据的存储和索引。
-
Forwarder负责数据的收集,清洗,变形,并发送给Indexer。
Splunk内置了对Syslog,TCP/UDP,Spooling的支持,同时,用户可以通过开发 Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。
这里要注意的是,Search Head和Indexer都支持Cluster的配置,也就是高可用,高扩展的,但是Splunk现在还没有针对Farwarder的Cluster的功能。也就是说如果有一台Farwarder的机器出了故障,数据收集也会随之中断,并不能把正在运行的数据采集任务Failover到其它的 Farwarder上。