Hadoop

http://archive.apache.org/dist/(推荐网站,Apache所有的项目都在里面)

黄色小象   storm处理实时数据,storm可以运行在YARN上

HDFS:Hadoop distributed file system分布式文件系统    存储

MapReduce:并行计算框架

YARN:yet another resource negotiator  资源管理调度系统

Hadoop

水平扩展机器的数量,增大存储数据的能力(分布式存储)

HDFS主从结构:namenode(老大负责管理) datanode(老二负责存储数据)

Hadoop

Hadoop

将一个大的任务分割成很多小任务,分给很多机器并行计算,每台机器计算完成之后有一个中间结果,再将这些结果进行合并。

Hadoop