Spark Streaming 05 Spark Streaming 入门
1 介绍
Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.
spark-streaming将来自不同的数据源的数据进行处理,之后将结果输出到外部文件系统。
2 特点
- 低延时
- 能从错误中高效的恢复
- 能够运行在成千上百的节点
- 能够将批处理、机器学习、图计算等自框架和spark-streaming综合起来使用
3 工作原理
1) 粗粒度
spark-streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据块,然后把小的数据块传给spark-engine处理。
2)细粒度