Apache Storm原理介绍

Apache Storm是由Clojure编程语言编写的分布式流处理计算框架。该项目最初由Nathan Marz及BackType团队创建,在被Twitter收购后基于Apache许可协议开源。Apache Storm应用程序是基于有向无环图(DAG)的拓扑结构,以数据喷口(spout)和螺栓(bolt)为图的顶点,图上的边为流,将数据从一个节点引导到另一个节点,同时,拓扑一起充当数据转换的管道。Twitter最初使用Storm时,处理数十亿级的事件,通过对数十亿级的事件实时分析用户行为偏好、实时热点推文等,为用户实时推送偏好内容以及时下热点推文。
Storm纯内存的计算方式,减少了数据写入磁盘的时间,对比与传统关系型数据库(MYSQLDB2ORACLE等),其优点在于数据即拿即处理,数据源源不断地从喷口流出,通过流的方式传送至螺栓,螺栓即对数据进行处理,采用流水线加工生产作业,提高数据处理的效率,不需要对数据落地入库,后再进行数据运算。
 

Storm的拓扑模型架构

 
 
Storm的喷头可以接入多种数据源(KAFKA、SocketServer、Redis、FTP等),数据接入后,可由共同的Bolt的进行逻辑处理,最终可将结果输出至多种数据源。其数据通讯时,需要定义元组(Tuple)对象进行数据通讯,数据在拓扑中完成数据清洗、转换、计算、输出的过程。Storm拓扑应用一经执行后,将不停的运作,直至应用被杀死。
Apache Storm原理介绍
 

Storm集群技术架构

Apache Storm原理介绍

 
 
整个Storm集群的工作原理,是由客户端提交Topology(拓扑程序)至Nimbus,Nimbus将JAR包分发至所有的Supervisor节点,当所有的Supervisor接收完Jar包括,Nimbus将任务发布至zookeeper,Supervisor收到zookeeper分派的任务后,启动work(进程),work启动Executor(线程), Executor执行Task(任务),而Storm UI则负责监控总个集群的运行情况。以下详细介绍各个模块的职能以及相互间的交互。
Nimbus负责对运行在集群上的topology进行管理、协调和监控,其中包括topology的发布、任务指派、时间处理时重新指派任务等。Nimbus采用Zookeeper记录所有的supervisor节点,以及执行任务数(Task),根据supervisor定时上报的心跳信息,检查supervisor是否正常,在设定的超时范围内,未收到心跳信息,则进行故障转移,将故障的supervisor的任务信息分派给其他的supervisor。
Supervisor通过zookeeper接收Nimbus分发的任务信息,根据Nimbus执行的任务信息启动相应数量的work,再由work根据任务信息启动相应的Executor,当work启动失败时,supervisor将会重新调起work。Work与work间的通讯采用Netty中间件,并使用tuple元组的对象模式进行数据交互。
UI通过Storm UI可以监控数据执行情况,每10分钟数据的处理效率,并可对应用进行暂停、恢复、rebalance以及停止操作。