您的位置: 首页 > 文章 > Hadoop介绍

Hadoop介绍

分类: 文章 • 2022-10-29 00:24:03

HDFS

提供了高可靠性、高扩展性和高吞吐率的数据存储服务

分布式存储

Hadoop介绍

分布式计算

移动数据

将数据向计算移动，100G加载到内存（程序）速度很慢

移动计算

将计算向数据移动，将计算程序加载到各台服务器上。
Hadoop介绍

HDFS分布式文件系统

核心角色

client ：客户端
NameNode：Master节点（维护整个文件系统的元数据信息）
DataNode：Slave节点（保存文件系统的真实数据：block）
SecondaryNameNode：合并快照与日志操作的节点
注
元数据是描述数据的数据

Hadoop

Hadoop体系架构

Hadoop介绍

Hadoop伪分布搭建

上传工具包

找到hadoop-2.7.5.tar.gz以及jdk-8u121-linux-x64.tar.gz压缩包–>
打开winSCP–>
新建文件夹–>
新建站点–>
主机名192.168.81.11，用户名root，密码123456–>
保存，站点名称node01，保存在创建的文件夹，保存密码–>
确定–>登录–>是
将1步中的两个文件鼠标左键拖到右侧Linux的/root/下
关闭winSCP

虚拟机配置JDK与Hadoop

在[email protected]~下创建目录mkdir /opt/hpe
解压tar -zxvf hadoop-2.7.5.tar.gz -C /opt/hpe/
解压tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/hpe/
查看/opt/hpe下是否有两个文件
重命名jdk：mv jdk1.8.0_121 jdk1.8.0
配置环境变量：vi /etc/profile
Shift+G新开一行，在最后增加一行：export JAVA_HOME=/opt/hpe/jdk1.8.0
继续增加一行：export PATH= $PATH:$ JAVA_HOME/bin，保存
刷新环境变量：source /etc/profile
java -version
jps：检查当前运行的进程
ssh localhost：登录一下本机，看是否需要密码
cd命令回到root家目录，在家目录下ls -a显示隐藏文件.ssh
cd .ssh/
ssh-****** -t rsa然后一直敲回车
ls查看多了两个文件id_rsa（私钥）和id_rsa.pub（公钥）
此处将公钥发送给另一个文件（完全分布式将公钥发送给其他对象）：cat id_rsa.pub >> authorized_keys
测试是否可以免**登录：ssh localhost
cd /opt/hpe/hadoop-2.7.5/
vi /etc/profile
在倒数第二行，新增export HADOOP_HOME=/opt/hpe/hadoop-2.7.5一行
在最后一行末尾追加: $HADOOP_HOME/bin:$ HADOOP_HOME/sbin保存
source /etc/profile
hadoop version
cd /etc/hpe/hadoop-2.7.5/etc/hadoop/
ls，然后修改其中的env文件
vi hadoop-env.sh,将倒数第三行处JAVA_HOME指向的路径更改为/opt/hpe/jdk1.8.0