【Hadoop】(一)初识Hadoop
一、大数据是什么
大数据(big data):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
二、大数据的特点
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
- Veracity(真实性)
三、数据存储单位
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) =Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte
四、Hadoop是什么
- Hadoop是由apache基金会所开发的分布式系统基础架构
- 主要解决,海量数据存储和海量数据分析的问题
- 广义上来说,hadoop通常是指一个更广泛的概念—Hadoop生态圈
五、Hadoop的特点
-
高可靠
Hadoop对数据做了备份,默认副本数为3,所以即使某个hadoop节点出现故障,也不会影响数据的完整 -
高效率
受MapReduce的影响,hadoop被设计成并行工作的,以加快任务的处理速度 -
高扩展
hadoop非常容易扩展,对hadoop节点的上线下线也非常方便,可以在很廉价的机器上部署 -
高容错:能够自动将失败的任务重新分配
六、Hadoop的1.x和2.x的区别
在hadoop1.x,MapReduce同时负责业务逻辑的运算和资源调度,但是这样的耦合性很大;在hadoop2.x,增加了yarn负责资源调度,MapReduce只负责运算。