Hive——排序
排序方式分类
group by、sort by、distribute by、cluster by
区别联系
group by: 全局排序,仅启动一个MapReduce排序。
sort by: 只有一个reduce的情况下,功能和group by一样,当设置了多个reduce( 例如:set mapreduce.job.reduces=3)的时候,sort by 就需要和distribute配合使用来实现局部排序。
distribute by: 和sort by配合使用进行局部排序。
cluster by: 相当于sort by + distribute by
sort by + distribute by 和 cluster by 比较
相比较cluster by而言,sort by + distribute by 的方式更加的灵活,相当于cluster by 的微服架构,也可以说cluster by 是 sort by和 distribute by 的特殊功能的总结。
本节完!