spark性能调优-分配更多的资源

spark性能调优-分配更多的资源

1.通过观察spark部署图可以看出增加executor的数量会增加task的数量从而增加并行度。(executor分配的task数量和cpu core有关,cpu core越多,可分配的task越多)

2.增加每个executor的内存大小,因为如果需要对RDD进行缓存,更多的内存就可以缓存更多的数据,从而减少磁盘I/O,包括shuffle操作需要内存来存放拉取的数据进行聚合,也可以减少磁盘I/O,对于task的执行,会创建很多对象,内存小了会频繁导致jvm堆内存满了,然后频繁的GC操作,内存打了减少GC操作,避免这个问题