Spark default 分区为空时无法查询的问题解决

在创建了spark动态分区表时,如果插入数据时,分区值为null或者’‘, spark会将分区值设置成默认值:

__HIVE_DEFAULT_PARTITION__

这里,spark2.3在处理的时候,会忽略分区值为null的数据,因此会存在如下select语句查询不到结果的情况:

select * from t where p =’__HIVE_DEFAULT_PARTITION__‘

该问题出在org/apache/spark/sql/catalyst/catalog/interface.scala中

这里spark2.3在判断的时候,如果分区为空,则会直接返回null,不返回数据,因此无法删除:

Spark default 分区为空时无法查询的问题解决通过对比spark2.1和spark2.3代码,此处的实现在2.3中多了部分代码,但是没写明此处设计的原因。猜测其是本身对于分区来说,不建议出现分区值为null的情况。

 

关于这个问题的讨论,可以参看spark jira, 开发人员认为null 和空字符串在hive中,本来就是无效的分区值,后面为了跟hive保持一致,又做了null和空字符串的列名映射(即变成了__HIVE_DEFAULT_PARTITION__),然后这个地方可能是遗漏了没改到吧。

https://issues.apache.org/jira/browse/SPARK-24438?jql=project%20%3D%20SPARK%20AND%20text%20~%20%22DEFAULT_PARTITION_NAME%22