Spark default 分区为空时无法查询的问题解决
在创建了spark动态分区表时,如果插入数据时,分区值为null或者’‘, spark会将分区值设置成默认值:
__HIVE_DEFAULT_PARTITION__
这里,spark2.3在处理的时候,会忽略分区值为null的数据,因此会存在如下select语句查询不到结果的情况:
select * from t where p =’__HIVE_DEFAULT_PARTITION__‘
该问题出在org/apache/spark/sql/catalyst/catalog/interface.scala中
这里spark2.3在判断的时候,如果分区为空,则会直接返回null,不返回数据,因此无法删除:
通过对比spark2.1和spark2.3代码,此处的实现在2.3中多了部分代码,但是没写明此处设计的原因。猜测其是本身对于分区来说,不建议出现分区值为null的情况。
关于这个问题的讨论,可以参看spark jira, 开发人员认为null 和空字符串在hive中,本来就是无效的分区值,后面为了跟hive保持一致,又做了null和空字符串的列名映射(即变成了__HIVE_DEFAULT_PARTITION__),然后这个地方可能是遗漏了没改到吧。