Spark default 分区为空时无法查询的问题解决

在创建了spark动态分区表时，如果插入数据时，分区值为null或者’‘, spark会将分区值设置成默认值：

__HIVE_DEFAULT_PARTITION__

这里，spark2.3在处理的时候，会忽略分区值为null的数据，因此会存在如下select语句查询不到结果的情况：

select * from t where p =’__HIVE_DEFAULT_PARTITION__‘

该问题出在org/apache/spark/sql/catalyst/catalog/interface.scala中

这里spark2.3在判断的时候，如果分区为空，则会直接返回null，不返回数据，因此无法删除：

Spark default 分区为空时无法查询的问题解决通过对比spark2.1和spark2.3代码，此处的实现在2.3中多了部分代码，但是没写明此处设计的原因。猜测其是本身对于分区来说，不建议出现分区值为null的情况。

关于这个问题的讨论，可以参看spark jira, 开发人员认为null 和空字符串在hive中，本来就是无效的分区值，后面为了跟hive保持一致，又做了null和空字符串的列名映射（即变成了__HIVE_DEFAULT_PARTITION__），然后这个地方可能是遗漏了没改到吧。