如何使用火花流分析来自kafka服务器的json数据?

问题描述:

我设法将火花流连接到我的kafka服务器,其中我有json格式的数据。我想解析这些数据以便使用函数groupby,如下所示:Can Apache Spark merge several similar lines into one line?如何使用火花流分析来自kafka服务器的json数据?

事实上,在这个链接中,我们从一个文件中导入json数据,这显然更容易处理。我没有发现类似于kafka服务器。

你有什么想法回合它。

感谢和问候

+0

PS:很显然,我不会问这个问题,如果我没有在网上找到任何东西 –

这真的很难理解你的要求,因为我们无法看到你现在的情况没有代码。也许这个一般指导是你需要的。

您可以给您的StreamingContext一个foreachRDD块,您将获得RDD。那么你可以sqlContext.read.json(inputRDD),你将有一个DataFrame,你可以处理,但你喜欢。

+0

我想解决这里问的问题:http://*.com/questions/38723796/can-apache -spark-merge-several-similar-lines-into-one-line/38724060。从每个json数据中的特定字段中,我想重新组合具有相同字段值的多个json数据。 –