为什么Spark流执行者在不同的时间开始?
问题描述:
我使用的Spark流1.6,它使用卡夫卡作为源为什么Spark流执行者在不同的时间开始?
我的输入参数如下:
num-executors 5
num-cores 4
batch Interval 10 sec
maxRate 600
blockInterval 350 ms
为什么我的一些执行者开始比另一个更高?
答
这不是执行者开始时间,但任务的启动时间。
这很可能是由于地点调度。 Spark将任务的开始推迟到寻找执行该任务的最佳执行者。查看Spark's documentation中的配置“spark.locality.wait”了解更多详情。