大数据分布式文件系统应用,阿里内部工程师整理,想学的可以看看

学习大数据,学什么?怎么学?今天给大家分享的文章就是分布式文件系统的高级特性及实战应用,各位大数据学习者都可以来看看。

大数据分布式文件系统应用,阿里内部工程师整理,想学的可以看看

大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,

包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。也可以关注我。

1、原理和运行机制、体系结构(最重要)

2、搭建实验环境,动手

3、编程:实现大数据的处理(Java、Scala)

============================================

一、什么是大数据?大数据处理的核心问题

1、什么是大数据?

举例:(1)商品推荐:问题1:大量的订单如何存储?

问题2:大量的订单如何计算?

(2)天气预报:问题1:大量的天气数据如何存储?

问题2:大量的天气数据如何计算?

2、大数据处理的核心问题

(1)数据的存储 -----> 今天晚上的重点

(2)数据的计算: mapreduce

3、Hadoop和Spark:一般来说,数据都是存在HDFS中

二、什么是分布式文件系统(大数据的存储)

1、Google的论文:GFS(google file system)

2、画图:分布式文件系统的原理

3、Hadoop的安装方式

(1)本地模式: 1台

(2)伪分布模式: 1台

(3)全分布模式:至少3台

三、Hadoop的文件系统:HDFS

1、Demo:操作使用HDFS(伪分布)

2、组成HDFS的组件

(1)NameNode 名称节点

(2)DataNode 数据节点

(3)SecondaryNameNode:第二名称节点

3、项目实战:开发一个客户端,完成数据的上传

依赖的jar包:

$HADOOP_HOME 代表Hadoop的安装目录

$HADOOP_HOME/share/hadoop/common/*.jar

$HADOOP_HOME/share/hadoop/common/lib/*.jar

$HADOOP_HOME/share/hadoop/hdfs/*.jar

$HADOOP_HOME/share/hadoop/hdfs/lib/*.jar