为什么Spark流执行者在不同的时间开始?

问题描述:

我使用的Spark流1.6,它使用卡夫卡作为源为什么Spark流执行者在不同的时间开始?

我的输入参数如下:

num-executors 5 
num-cores  4 
batch Interval 10 sec 
maxRate   600 
blockInterval 350 ms 

为什么我的一些执行者开始比另一个更高?

enter image description here

这不是执行者开始时间,但任务的启动时间。

这很可能是由于地点调度。 Spark将任务的开始推迟到寻找执行该任务的最佳执行者。查看Spark's documentation中的配置“spark.locality.wait”了解更多详情。