大数据每周总结
总结时间: 2019年12月28日 周六 |
周考试卷总结:【点此处】
MapReduce的流程
【MapTask工作机制】 【ReduceTask工作机制】
HDFS上传下载的流程
Shuffle的机制
从Map阶段的后面的部分——Reduce阶段的前面的部分组成
环形缓冲区的作用
Key,value从map( )方法输出,被outputCollector收集通过getPartitioner( )方法获取分区号,在进入环形缓冲区。默认情况下,环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之20反向写入。溢写过程会根据key,value先进行分区,后进行排序,最终maptask溢写文件经过归并排序后落入本地磁盘,reduceTask将多个mapTask下相同分区的数据copy到不同的reduceTask中进行归并排序后一次读取一组数据给reduce( )函数。
对安全模式的理解
集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态。但是严格来说,只是保证HDFS元数据信息的访问,而不保证文件的访问。集群启动完成后,自动退出安全模式,如果集群处于安全模式,想要完成写操作,需要离开安全模式。
SafeMode模式相关的命令 功能描述 bin/hdfs dfsadmin -safemode get 查看安全模式状态 bin/hdfs dfsadmin -safemode enter 进入安全模式状态 bin/hdfs dfsadmin -safemode leave 离开安全模式状态 bin/hdfs dfsadmin -safemode wait 等待安全模式状态
对于全新创建的HDFS集群,NameNode启动后不会进入安全模式,因为没有Block信息
Combiner的作用及意义
Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量