SparkStreaming与Kafka的整合是怎么样的

这期内容当中小编将会给大家带来有关SparkStreaming与Kafka的整合是怎么样的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

为什么有SparkStreaming与Kafka的整合？

首先我们要知道为什么会有SparkStreaming与Kafka的整合，任何事情的出现都不是无缘无故的！

我们要知道Spark作为实时计算框架，它仅仅涉及到计算，并没有涉及到数据的存储，所以我们后期需要使用spark对接外部的数据源。SparkStreaming作为Spark的一个子模块，它有4个类型的数据源：

1.socket数据源（测试的时候使用）

2.HDFS数据源（会用到，但是用得不多）

3.自定义数据源（不重要，没怎么见过别人会自定义数据源）

4.扩展的数据源（比如kafka数据源，它非常重要，面试中也会问到）

下面SparkStreaming与Kafka的整合，但只讲原理，代码就不贴了，网上太多了，写一些自己理解的东西！

SparkStreaming整合Kafka-0.8

SparkStreaming与Kafka的整合要看Kafka的版本，首先要讲的是SparkStreaming整合Kafka-0.8。

在SparkStreaming整合kafka-0.8中，要想保证数据不丢失，最简单的就是靠checkpoint的机制，但是checkpoint机制有一个毛病，对代码进行升级后，checkpoint机制就失效了。所以如果想实现数据不丢失，那么就需要自己管理offset。

大家对代码升级会不会感到陌生，老刘对它好好解释一下！

我们在日常开发中常常会遇到两个情况，代码一开始有问题，改一下，然后重新打包，重新提交；业务逻辑发生改变，我们也需要重新修改代码！

而我们checkpoint第一次持久化的时候会整个相关的jar给序列化成一个二进制文件，这是一个独一无二的值做目录，如果SparkStreaming想通过checkpoint恢复数据，但如果代码发生改变，哪怕一点点，就找不到之前打包的目录，就会导致数据丢失！

所以我们需要自己管理偏移量！

SparkStreaming与Kafka的整合是怎么样的

用ZooKeeper集群管理偏移量，程序启动后，就会读取上一次的偏移量，读取到数据后，SparkStreaming就会根据偏移量从kafka中读取数据，读到数据后，程序会运行。运行完后，就会提交偏移量到ZooKeeper集群，但有一个小问题，程序运行挂了，但偏移量未提交，结果已经部分到HBase，再次重新读取的时候，会有数据重复，但只影响一批次，对大数据来说，影响太小！

但是有个非常严重的问题，当有特别多消费者消费数据的时候，需要读取偏移量，但ZooKeeper作为分布式协调框架，它不适合大量的读写操作，尤其是写操作。所以高并发的请求ZooKeeper是不适合的，它只能作为轻量级的元数据存储，不能负责高并发读写作为数据存储。

根据上述内容，就引出了SparkStreaming整合Kafka-1.0。

SparkStreaming整合Kafka-1.0

SparkStreaming与Kafka的整合是怎么样的

这个只是利用KafkaOffsetmonitor设计的一个方案，利用它对任务进行监控，接着利用爬虫技术获取监控的信息，再把数据导入到openfalcon里面，在openfalcon里根据策略配置告警或者自己研发告警系统，最后把信息利用企业微信或者短信发送给开发人员！

上述就是小编为大家分享的SparkStreaming与Kafka的整合是怎么样的了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注行业资讯频道。

SparkStreaming与Kafka的整合是怎么样的

为什么有SparkStreaming与Kafka的整合？

SparkStreaming整合Kafka-0.8

SparkStreaming整合Kafka-1.0

相关推荐