Hive-分桶(Cluster By)
1.什么叫分桶:
类似分区,根据表中的某一字段进行哈希后,
分到不同的桶里。
2.为何要分桶:
1.分区满足不了用户分隔开数据的意愿,分区有数量限制,
Hive会阻止过多小分区。
2.因此有了分桶,可将数据分到固定数目的桶中。没有数据波动。
3.例子:
3.向分桶表里正确填充数据:
1.什么叫分桶:
类似分区,根据表中的某一字段进行哈希后,
分到不同的桶里。
2.为何要分桶:
1.分区满足不了用户分隔开数据的意愿,分区有数量限制,
Hive会阻止过多小分区。
2.因此有了分桶,可将数据分到固定数目的桶中。没有数据波动。
3.例子:
3.向分桶表里正确填充数据: