sparksql电商项目调优

1、性能调有、压缩格式的选择
压缩方式考虑两个方面:压缩速度、压缩文件的可分割性。
sparksql电商项目调优
Bzip2压缩效果是最好的,但是Bzip2压缩速度慢,可分割;
Gzip压缩效果不如Bzip2,但是压缩解压速度快,不支持分割;
LZO压缩效果不如Bzip2和Gzip,但是压缩解压速度快,并且支持分割;

2、参数优化
调整并行度:
spark.sql.shuffle.partitions :默认200

分区字段类型推测:
spark.sql.sources.partitionColumnTypeInference.enabled