大数据学习(07)--MapReduce
文章目录
目录
1.MapReduce介绍
1.1 什么是分布式并行编程?
传统的并行计算框架:cuda,MPI,OPENMP等等
参考博客
1.2 MapReduce模型介绍
1.3 map和reduce函数
结合操作:对键相同的数据的值进行相加
归并操作:对键相同的数据的值组合成一个数组
2.MapReduce体系架构
3.MapReduce工作流程
3.1 概述
3.2 MapReduce各个阶段介绍
3.3 shuffle过程介绍
3.3.1 shuffle过程简介
3.3.2 map中的shuffle过程
3.3.3 reduce中的shuffle过程
3.3.4 MapReduce应用程序执行过程
map和reduce执行过程中产生的数据都是存储在其本地计算机内部,这样可以避免频繁的通信造成的延迟和不必要的错误。
4.MapReduce具体应用
4.1 wordCount
4.1.1 程序的任务
4.1.2 设计思路
只要问题可以满足分治的思想解决的,都可以使用MapReduce程序解决
4.1.3 执行过程
4.2 关系表的自然连接
5.MapReduce编程实践
5.1 任务
5.2 编写map处理逻辑
5.3 编写reduce处理逻辑
5.4 编写main方法
完整代码