Spark Streaming学习(1)

Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多来源中获取,并且可以使用由高级功能(如map,reduce,join和window)表达的复杂算法进行处理,处理后的数据可以推送到文件系统,数据库和实时仪表板。 也可以在数据流上应用Spark的机器学习和图形处理算法。

Spark Streaming学习(1)

工作原理如下: Spark Streaming接收实时输入数据流,并将数据分成批(batches),然后由Spark引擎对其进行处理,生成结果流。

Spark Streaming学习(1)

Spark Streaming提供一个高级抽象,叫DStream。DStream表示连续的数据流,可以从诸如Kafka,Flume和Kinesis等来源的输入数据流中创建,也可以通过对其他DStream应用高级操作来创建。 在内部,DStream表示为一系列RDD。