Spark Stream之DStream的三个特殊原语updateStateByKey、transform、window operations

updateStateByKey：将历史结果应用到当前批次。

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 在用历史结果应用到当前批次的需求时，可以用updateStateByKey原语实现
  * 实现历史批次累加功能也可以借助数据库来实现
  * updateStateByKey只有获取历史批次结果应用到当前批次中的功能，该原语是没有存储历史批次结果的功能的
  * 所以，实现批次累加必须要进行checkpoint----streaming中，checkpoint具有存储历史结果的功能
  */
object AccSparkStreamingWC {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("AccSparkStreamingWC").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))

    // 做checkpoint
    ssc.checkpoint("hdfs://node01:9000/cp-20190110-1")

    // 获取数据
    val dStream = ssc.socketTextStream("node01", 8888)

    // 开始统计
    val tups: DStream[(String, Int)] = dStream.flatMap(_.split(" ")).map((_, 1))
    // 调用updateStateByKey原语进行批次累加
    val result: DStream[(String, Int)] = tups.updateStateByKey(func, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)

    result.print()

    ssc.start()
    ssc.awaitTermination()
  }

  /**
    * 迭代器中，
    * 第一个参数：数据中的key
    * 第二个参数：当前批次中相同key对应的value  Seq(1,1,1,1,1)
    * 第三个参数：历史结果中相同key对应的value  Some(2)
    */
  val func = (it: Iterator[(String, Seq[Int], Option[Int])]) => {
    it.map(x => {
      (x._1, x._2.sum + x._3.getOrElse(0))
    })
  }
}

transform：用于操作DStream里面的rdd。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Milliseconds, StreamingContext}

/**
  * 用transform可以操作DStream里面的rdd
  */
object TransformDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("transformdemo").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Milliseconds(2000))

    val dstream = ssc.socketTextStream("node01", 8888)
    val res: DStream[(String, Int)] = dstream.transform(rdd => {
      rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
    })
    res.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

window operations：运用在需要展示的结果范围与批次间隔不一致时。
窗口操作window operations：
窗口（window）是指展示数据结果的范围，是streaming中用来描述展示批次间隔的结果范围的，所以一个窗口往往会包含多个批次间隔的结果范围。
窗口操作：一段时间内数据发生的变化
窗口操作的过程中，需要我们指定两个参数：
窗口长度：是指窗口的持续时间（每次展示的结果范围）
滑动间隔：是指窗口的间隔（窗口从一个地方滑动到另一个地方的时间间隔）
注意：这两个参数需要是Dstream批次间隔的倍数。
应用场景：
需要展示的结果范围与批次间隔不一致时。
比如批次间隔为2秒，但是我需要每次展示1个小时的结果范围，类似于这样的需求就需要窗口操作。如果把批次间隔直接调整为1小时，可能会因为分析的数据太多出现延迟甚至出现OOM。
Spark Stream之DStream的三个特殊原语updateStateByKey、transform、window operations

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.DStream

object WindowOperationsDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WindowOperationsDemo").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Milliseconds(2000))

    val dstream = ssc.socketTextStream("node01", 8888)
    val tups: DStream[(String, Int)] = dstream.flatMap(_.split(" ")).map((_, 1))
    val res: DStream[(String, Int)] =
      tups.reduceByKeyAndWindow((x: Int, y: Int) => x + y, Seconds(10), Seconds(10))

    res.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

Spark Stream之DStream的三个特殊原语updateStateByKey、transform、window operations

相关推荐