Spark Streaming 05 Spark Streaming 入门

1 介绍

Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.

spark-streaming将来自不同的数据源的数据进行处理,之后将结果输出到外部文件系统。

2 特点

  • 低延时
  • 能从错误中高效的恢复
  • 能够运行在成千上百的节点
  • 能够将批处理、机器学习、图计算等自框架和spark-streaming综合起来使用

3 工作原理

1) 粗粒度

spark-streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据块,然后把小的数据块传给spark-engine处理。

2)细粒度

Spark Streaming 05 Spark Streaming 入门