Hadoop入门学习笔记_day01(大数据的相关概念 )

一、大数据的相关概念:

(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。

  • 随着技术的不断发展,符合大数据标准的数据集容量也会增长
  • 不同行业使用的软件和数据集可能差别较大
  • 大数据在今天不同行业的范围可以从十几TB到几PB

(二)大数据的四个特点–4Vs

  • 大量:数据量大,从TB级别跃升到PB级别
  • 多样:数据类型繁多
    • 非结构化:文本、图形、声音等
    • 半结构化:日志
    • 结构化数据:行列规整的表单数据
    • 多结构化数据:以上三种类型混合的数据
  • 高速:数据即时处理的速度
  • 真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义

    (三) Hadoop需要解决的问题

  • 海量数据的存储(HDFS)

  • 海量数据的分析(MapReduce)
  • 资源管理调度(YARN)

    问题:怎样解决海量数据的存储?
    分布式文件系统的概念:(HDFS)
    Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统
    ①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的
    ②在HDFS文件系统中,一个文件将被分布在集群中的多台机器上存储
    ③是一个高度容错性的系统[HDFS的设计目标:硬件故障是常态而非异态,所以他会提供对于硬件故障处理]
    ④能提供高吞吐量的数据访问
    ⑤非常适合大规模数据集上的应用

①问题:怎样解决海量数据的计算?



求和:1+5+3+4+9+3+5+6=?
Hadoop入门学习笔记_day01(大数据的相关概念 )
②问题:怎样解决海量数据的存储?
分布式文件系统的描述(HDFS)
Hadoop入门学习笔记_day01(大数据的相关概念 )