大数据学习Day01 --初识大数据
Day01–千里之行,始于足下
前言
自学大数据之路,希望见证自己每一天的成长
心得
- 了解大数据
- 了解大数据相关岗位
- 大数据与Hadoop的关系
正文
-
什么是大数据
大数据,指在一定时间内,无法用常规软件工具捕捉、管理和处理的数据。是一种海量、高增长率和多样化的信息资产
-
大数据的四个特点(4v)
1.Volume(大量),典型个人计算机硬盘容量为TB,而一些大型企业的数据量已经接近EB量级
2.Velocity(高速),这是大数据区分于传统数据挖掘的显著特征。根据IDC的预测,2020年全球数据量会 高达35.2ZB,海量数据的产生,对应着海量数据的处理,数据的处理效率影响着企业
3.Variety(多样),相比于结构化数据,非结构化数据越来越多。网络日志、音频、视频、图片、地理位置 等,非结构化数据对数据处理能力提出了更高要求
4.value(低密度价值) 数据量大,但是有用信息少,需要从处理大量数据中挖掘关键信息
-
大数据相关岗位置
-
Hadoop
1.什么是Hadoop:
Hadoop是Apache基金会的一个子项目,是一个分布式系统基础架构。Hadoop实现了一个分布式文件 系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在 低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那 些有着超大数据集(large data set)的应用程序。可以以流的形式访问(streaming access)文件系统 中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存 储,而MapReduce则为海量的数据提供了计算2.Hadoop核心
YARN HDFS MapReduce common 调度资源 数据存储 计算 辅助工具 3 Hadoop三大发行版本
Apache版本:最原始(最基础)的版本,对于入门学习最好。
Cloudera:在大型互联网企业中用的较多,对于Hadoop生态圈版本的统一问题处理的较好。
Hortonworks:文档较好。
4.为什么用Hadoop处理数据
首先看Hadoop的核心组件之一的HDFS,在Hadoop 官网对他的特点有详细定义,HDFS跟现存的许多分 布式架构有所不同,对POSIX的通用性规范做了取舍,用来增加HDFS的吞吐率,在设计之初就是为了处理 大批量的数据,并且依附着Hadoop,已经形成了Hadoop生态圈,一系列组件运行在Hadoop上,协同处 理大批量数据,Hadoop至于Hadoop生态圈的地位可以比作Spring对于Spring组件的地位,根据需求,越 来越多的组件依附着Hadoop应运而生,所以,处理大数据我们一般选用Hadoop,这里Hadoop指的是广义上的Hadoop生态圈