学习大数据-确定学习方向
什么是大数据
来自维基百科
大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
海量数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,海量数据的出现促成广泛主题的新颖研究。这也导致各种海量数据统计方法的发展。海量数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,海量数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,海量数据分析在现代研究中越来越突出。
大数据的目的
从各种各样类型的数据中,快速获得有价值信息。
特性
各种各样类型的数据可以用大数据的特性来介绍(3V)
- Volume(大量数据)
- Velocity(数据增长快速)
- Variety(数据多样,例如:结构化,半结构化,非结构化)
大数据的能力
从各种各样类型的数据中,快速获得有价值信息。
以目标为导向,大数据应该以下基础能力:
- 可扩展的数据存储
- 可提升的计算能力
大数据能力1.0
大数据能力2.0
为了提升效率,会诞生很多好用的工具,如下图
大数据组件
接下来会重点学习核心的组件-Hadoop生态圈。