Hadoop入门学习笔记_day01(大数据的相关概念 )
一、大数据的相关概念:
(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。
- 随着技术的不断发展,符合大数据标准的数据集容量也会增长
- 不同行业使用的软件和数据集可能差别较大
- 大数据在今天不同行业的范围可以从十几TB到几PB
(二)大数据的四个特点–4Vs
- 大量:数据量大,从TB级别跃升到PB级别
- 多样:数据类型繁多
- 非结构化:文本、图形、声音等
- 半结构化:日志
- 结构化数据:行列规整的表单数据
- 多结构化数据:以上三种类型混合的数据
- 高速:数据即时处理的速度
-
真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义
(三) Hadoop需要解决的问题
海量数据的存储(HDFS)
- 海量数据的分析(MapReduce)
-
资源管理调度(YARN)
问题:怎样解决海量数据的存储?
分布式文件系统的概念:(HDFS)
Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统
①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的
②在HDFS文件系统中,一个文件将被分布在集群中的多台机器上存储
③是一个高度容错性的系统[HDFS的设计目标:硬件故障是常态而非异态,所以他会提供对于硬件故障处理]
④能提供高吞吐量的数据访问
⑤非常适合大规模数据集上的应用
①问题:怎样解决海量数据的计算?
求和:1+5+3+4+9+3+5+6=?
②问题:怎样解决海量数据的存储?
分布式文件系统的描述(HDFS)