Hadoop学习笔记(一)

一、什么是大数据,本质?

1.数据的存储:分布式文件系统(分布式存储)----HDFS:Hadoop Distributed File System
2.数据的计算:分布式计算

大数据应用场景?

例如:
1、商品推荐中:大量的订单如何存储以及大量的订单如何计算?
2、天气预报场景中:大量的天气数据存储、大量的天气如何计算问题
使用大数据的分布式文件系统与分布式计算可以很好的解决此类场景问题。

如何解决大数据的存储?—分布式文件系统(HDFS,来源于GFS)

问题1:(硬盘不够大怎么解决?)
如果数据有10G大小,而我们一块硬盘只有6G,如何解决?多搞几块硬盘就解决了。
问题2:(数据不够安全问题)
将同一份数据分别存到1/2/3硬盘中都存一份,这样的话即使1/2号硬盘坏了,我们也可以使用3号硬盘中的数据。
问题3:(效率问题)
上传一份数据完成后,然后将其水平复制到其他2个硬盘内。
问题4:(安全问题)
上传输数据过程中按照数据块的方式进行传输
如下图所示:Hadoop学习笔记(一)

如何解决大数据的计算?—分布式计算

1、什么是PageRank?(MapReduce的问题来源)
(1) PageRank是解决网页搜索排名问题

2、MapReduce(Java语言实现)基础编程模型: 把一个大任务拆分成小任务,小任务分别计算出结果后再进行汇总。
MapReduce模型分为2个阶段:Map阶段和Reduce阶段
如下图所示:
Hadoop学习笔记(一)