hadoop

Hadoop大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据特征:
4V特征:
Volume(大数据量):90%的数据是过去两年产生
Velocity(速度快):数据增长速度快,时效性高
Variety(多样化):数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低):需要挖掘数据价值
固有特征:
时效性
不可变性
分布式计算
分布式计算将较大的数据分成小的部分进行处理
传统分布式计算 新的分布式计算-Hadoop
计算方式 将数据复制到计算节点 在不同数据节点并行计算
可处理数据量 小数据量 大数据量
Cpu性能限制 受cpu限制较大 受单台设备限制小
提升计算能力 提升单台机器计算能力 扩展低成本服务器集群

Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
处理海量数据的架构首选
非常快的完成大数据计算任务
已发展成为一个Hadoop生态圈

Hadoop起源于搜索引擎Apache Nutch
创始人:Dong Cutting
2004年——最初版本实施
2008年——成为Apache顶级项目
Hadoop发行版本
社区版:Apache Hadoop
Cloudera发行版:CDH
Hortonworks发行版:HDP

使用Hadoop的优点:
高扩展性、可伸缩
高可靠性
多副本机制。容错高
低成本
无共享架构
灵活,可存储任意数据类型
开源,社区活跃
Hadoop与关系型数据库对比
RDBMS Hadoop
格式 写数据时要求 读数据时要求
速度 读数据速度快 写数据速度快
数据监管 标准结构化 任意数据结构
数据处理 有限的处理能力 强大的处理能力
数据类型 结构化数据 结构化、半结构化、非结构化
应用场景 交互式OLAP分析 处理非结构化数据
ACID事务处理 海量数据存储计算
企业业务系统

hadoop