Hadoop的背景起源--第二讲

Hadoop的背景起源一： GFS: Google File System

一、什么是大数据，本质？
（1）数据的存储：分布式文件系统（分布式存储）-----> HDFS: Hadoop Distributed File System
（2）数据的计算：分布式计算

二、如何解决大数据的存储？----> 分布式文件系统(HDFS，来源于GFS)
举例：网盘
(1) GFS: 没有硬盘的，数据只能存在内存中
(2) Hadoop的安装模式
（*）本地模式：1台
（*）伪分布模式：1台
（*）全分布模式：3台

Hadoop的背景起源--第二讲

Hadoop的背景起源二：MapReduce

一、什么是大数据，本质？
（1）数据的存储：分布式文件系统（分布式存储）-----> HDFS: Hadoop Distributed File System
（2）数据的计算：分布式计算

二、如何解决大数据的计算？分布式计算
（1）什么是PageRank(MapReduce的问题的来源)
(*) 搜索排名

（2）MapReduce（Java语言实现）基础编程模型: 把一个大任务拆分成小任务，再进行汇总
(*) 更简单一点例子

Hadoop的背景起源--第二讲

Hadoop的背景起源三 : BigTable ----> 大表 ----> NoSQL数据库：HBase

第一节：关系型数据库(Oracle、MySQL、SQL Server)的特点
1、什么是关系型数据库？基于关系模型（基于二维表）所提出的一种数据库
2、ER（Entity-Relationalship）模型：通过增加外键来减少数据的冗余
3、举例：学生-系

第二节：什么是BigTable？: 把所有的数据保存到一张表中，采用冗余 ---> 好处：提高效率
1、因为有了bigtable的思想：NoSQL：HBase数据库
2、HBase基于Hadoop的HDFS的
3、描述HBase的表结构

Hadoop的背景起源--第二讲

Hadoop的背景起源--第二讲

相关推荐