Hadoop介绍
HDFS
提供了高可靠性、高扩展性和高吞吐率的数据存储服务
分布式存储
分布式计算
移动数据
将数据向计算移动,100G加载到内存(程序)速度很慢
移动计算
将计算向数据移动,将计算程序加载到各台服务器上。
HDFS分布式文件系统
核心角色
client :客户端
NameNode:Master节点(维护整个文件系统的元数据信息)
DataNode:Slave节点(保存文件系统的真实数据:block)
SecondaryNameNode:合并快照与日志操作的节点
注
元数据是描述数据的数据
Hadoop
Hadoop体系架构
Hadoop伪分布搭建
上传工具包
- 找到hadoop-2.7.5.tar.gz以及jdk-8u121-linux-x64.tar.gz压缩包–>
- 打开winSCP–>
- 新建文件夹–>
- 新建站点–>
- 主机名192.168.81.11,用户名root,密码123456–>
- 保存,站点名称node01,保存在创建的文件夹,保存密码–>
- 确定–>登录–>是
- 将1步中的两个文件鼠标左键拖到右侧Linux的/root/下
- 关闭winSCP
虚拟机配置JDK与Hadoop
- 在[email protected]~下创建目录mkdir /opt/hpe
- 解压tar -zxvf hadoop-2.7.5.tar.gz -C /opt/hpe/
- 解压tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/hpe/
- 查看/opt/hpe下是否有两个文件
- 重命名jdk:mv jdk1.8.0_121 jdk1.8.0
- 配置环境变量:vi /etc/profile
- Shift+G新开一行,在最后增加一行:export JAVA_HOME=/opt/hpe/jdk1.8.0
- 继续增加一行:export PATH=JAVA_HOME/bin,保存
- 刷新环境变量:source /etc/profile
- java -version
- jps:检查当前运行的进程
- ssh localhost:登录一下本机,看是否需要密码
- cd命令回到root家目录,在家目录下ls -a显示隐藏文件.ssh
- cd .ssh/
- ssh-****** -t rsa然后一直敲回车
- ls查看多了两个文件id_rsa(私钥)和id_rsa.pub(公钥)
- 此处将公钥发送给另一个文件(完全分布式将公钥发送给其他对象):cat id_rsa.pub >> authorized_keys
- 测试是否可以免**登录:ssh localhost
- cd /opt/hpe/hadoop-2.7.5/
- vi /etc/profile
- 在倒数第二行,新增export HADOOP_HOME=/opt/hpe/hadoop-2.7.5一行
- 在最后一行末尾追加:HADOOP_HOME/sbin保存
- source /etc/profile
- hadoop version
- cd /etc/hpe/hadoop-2.7.5/etc/hadoop/
- ls,然后修改其中的env文件
- vi hadoop-env.sh,将倒数第三行处JAVA_HOME指向的路径更改为/opt/hpe/jdk1.8.0