大数据每周总结

总结时间： 2019年12月28日周六

周考试卷总结：【点此处】

MapReduce的流程

【MapTask工作机制】

【ReduceTask工作机制】

HDFS上传下载的流程

大数据每周总结

Shuffle的机制

从Map阶段的后面的部分——Reduce阶段的前面的部分组成

环形缓冲区的作用

Key，value从map( )方法输出，被outputCollector收集通过getPartitioner( )方法获取分区号，在进入环形缓冲区。默认情况下，环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时，那么开始执行溢写过程，溢写过程中如果有其他数据进入，那么由剩余的百分之20反向写入。溢写过程会根据key，value先进行分区，后进行排序，最终maptask溢写文件经过归并排序后落入本地磁盘，reduceTask将多个mapTask下相同分区的数据copy到不同的reduceTask中进行归并排序后一次读取一组数据给reduce( )函数。

对安全模式的理解

集群处于安全模式，不能执行重要操作(写操作)，集群属于只读状态。但是严格来说，只是保证HDFS元数据信息的访问，而不保证文件的访问。集群启动完成后，自动退出安全模式，如果集群处于安全模式，想要完成写操作，需要离开安全模式。

SafeMode模式相关的命令 功能描述

bin/hdfs dfsadmin -safemode get 查看安全模式状态

bin/hdfs dfsadmin -safemode enter 进入安全模式状态

bin/hdfs dfsadmin -safemode leave 离开安全模式状态

bin/hdfs dfsadmin -safemode wait 等待安全模式状态

对于全新创建的HDFS集群，NameNode启动后不会进入安全模式，因为没有Block信息

SafeMode模式相关的命令	功能描述
bin/hdfs dfsadmin -safemode get	查看安全模式状态
bin/hdfs dfsadmin -safemode enter	进入安全模式状态
bin/hdfs dfsadmin -safemode leave	离开安全模式状态
bin/hdfs dfsadmin -safemode wait	等待安全模式状态

Combiner的作用及意义

Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量

MapReduce的流程

HDFS上传下载的流程

Shuffle的机制

环形缓冲区的作用

对安全模式的理解

Combiner的作用及意义

相关推荐