Hive——排序

Hive——排序


排序方式分类

        group by、sort by、distribute by、cluster by
区别联系

        group by: 全局排序,仅启动一个MapReduce排序。
        sort by: 只有一个reduce的情况下,功能和group by一样,当设置了多个reduce( 例如:set mapreduce.job.reduces=3)的时候,sort by 就需要和distribute配合使用来实现局部排序。
        distribute by: 和sort by配合使用进行局部排序。
        cluster by: 相当于sort by + distribute by


sort by + distribute by 和 cluster by 比较

        相比较cluster by而言,sort by + distribute by 的方式更加的灵活,相当于cluster by 的微服架构,也可以说cluster by 是 sort by和 distribute by 的特殊功能的总结。
本节完!