Hadoop
http://archive.apache.org/dist/(推荐网站,Apache所有的项目都在里面)
黄色小象 storm处理实时数据,storm可以运行在YARN上
HDFS:Hadoop distributed file system分布式文件系统 存储
MapReduce:并行计算框架
YARN:yet another resource negotiator 资源管理调度系统
水平扩展机器的数量,增大存储数据的能力(分布式存储)
HDFS主从结构:namenode(老大负责管理) datanode(老二负责存储数据)
将一个大的任务分割成很多小任务,分给很多机器并行计算,每台机器计算完成之后有一个中间结果,再将这些结果进行合并。