您的位置: 首页 > 文章 > Hadoop Shuffle

Hadoop Shuffle

分类: 文章 • 2023-03-26 19:58:08

一、大体流程

Shuffle描述的是数据从Map端到Reduce端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程。

Hadoop Shuffle

二、Map端

Hadoop Shuffle

1、sort

Map端的输出数据，先写环形缓存区kvbuffer，当环形缓冲区到达一个阀值（可以通过配置文件设置，默认80），便要开始溢写，但溢写之前会有一个sort操作，这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。
2、spill

当排序完成，便开始把数据刷到磁盘，刷磁盘的过程以分区为单位，一个分区写完，写下一个分区，分区内数据有序，最终实际上会多次溢写，然后生成多个文件。
3、merge

spill会生成多个小文件，对于Reduce端拉取数据是相当低效的，那么这时候就有了merge的过程，合并的过程也是同分片的合并成一个片段（segment），最终所有的segment组装成一个最终文件，那么合并过程就完成了,如下图所示

三、Reduce

Hadoop Shuffle

1、fetch copy

Reduce任务通过向各个Map任务拉取对应分片。这个过程都是以Http协议完成，每个Map节点都会启动一个常驻的HTTP server服务，Reduce节点会请求这个Http Server拉取数据，这个过程完全通过网络传输，所以是一个非常重量级的操作。
2、merge-sort

Reduce端，拉取到各个Map节点对应分片的数据之后，会进行再次排序，排序完成，结果丢给Reduce函数进行计算。

四、Reduce

1、shuffle过程就是为了对key进行全局聚合
2、排序操作伴随着整个shuffle过程，所以Hadoop的shuffle是sort-based的