Spark Streaming学习（1）

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字的许多来源中获取，并且可以使用由高级功能（如map，reduce，join和window）表达的复杂算法进行处理，处理后的数据可以推送到文件系统，数据库和实时仪表板。也可以在数据流上应用Spark的机器学习和图形处理算法。

工作原理如下： Spark Streaming接收实时输入数据流，并将数据分成批（batches），然后由Spark引擎对其进行处理，生成结果流。

Spark Streaming学习（1）

Spark Streaming提供一个高级抽象，叫DStream。DStream表示连续的数据流，可以从诸如Kafka，Flume和Kinesis等来源的输入数据流中创建，也可以通过对其他DStream应用高级操作来创建。在内部，DStream表示为一系列RDD。

Spark Streaming学习（1）

相关推荐