Spark学习之路（五）Spark伪分布式安装

正文

一、JDK的安装

JDK使用root用户安装

1.1　上传安装包并解压

[[email protected] soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

1.2　配置环境变量

[[email protected] soft]# vi /etc/profile

#JAVA
export JAVA_HOME=/usr/local/jdk1.8.0_73
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.3　验证Java版本

[[email protected] soft]# java -version

Spark学习之路（五）Spark伪分布式安装

回到顶部

二、配置配置ssh localhost

使用hadoop用户安装

2.1　检测

正常情况下，本机通过ssh连接自己也是需要输入密码的

Spark学习之路（五）Spark伪分布式安装

2.2　生成私钥和公钥秘钥对

[[email protected] ~]$ ssh-****** -t rsa

Spark学习之路（五）Spark伪分布式安装

2.3　将公钥添加到authorized_keys

[[email protected] ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2.4　赋予authorized_keys文件600的权限

[[email protected] ~]$ chmod 600 ~/.ssh/authorized_keys

2.5　修改Linux映射文件(root用户)

[[email protected] ~]$ vi /etc/hosts

Spark学习之路（五）Spark伪分布式安装

2.6　验证

[[email protected] ~]$ ssh hadoop1

Spark学习之路（五）Spark伪分布式安装

此时不需要输入密码，免密登录设置成功。

回到顶部

三、安装Hadoop-2.7.5

使用hadoop用户

3.1　上传解压缩

[[email protected] ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

3.2　创建安装包对应的软连接

为解压的hadoop包创建软连接

[[email protected] ~]$ cd apps/
[[email protected] apps]$ ll
总用量 4
drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
[[email protected] apps]$ ln -s hadoop-2.7.5/ hadoop

Spark学习之路（五）Spark伪分布式安装

3.3　修改配置文件

进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

（1）修改hadoop-env.sh

[[email protected] hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73

Spark学习之路（五）Spark伪分布式安装

（2）修改core-site.xml

[[email protected] hadoop]$ vi core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/data/hadoopdata</value>
        </property>
</configuration>

Spark学习之路（五）Spark伪分布式安装

（3）修改hdfs-site.xml

[[email protected] hadoop]$ vi hdfs-site.xml

dfs的备份数目，单机用1份就行

        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/hadoop/data/hadoopdata/name</value>
                <description>为了保证元数据的安全一般配置多个不同目录</description>
        </property>

        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/hadoop/data/hadoopdata/data</value>
                <description>datanode 的数据存储目录</description>
        </property>

        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>HDFS 的数据块的副本存储个数, 默认是3</description>
        </property>

Spark学习之路（五）Spark伪分布式安装

（4）修改mapred-site.xml

[[email protected] hadoop]$ cp mapred-site.xml.template mapred-site.xml
[[email protected] hadoop]$ vi mapred-site.xml

mapreduce.framework.name：指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行。

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

Spark学习之路（五）Spark伪分布式安装

（5）修改yarn-site.xml

[[email protected] hadoop]$ vi yarn-site.xml

 　　　　<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>

Spark学习之路（五）Spark伪分布式安装

3.4　配置环境变量

千万注意：

1、如果你使用root用户进行安装。 vi /etc/profile 即可系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

[[email protected] ~]$ vi .bashrc

#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

Spark学习之路（五）Spark伪分布式安装

使环境变量生效

[[email protected] bin]$ source ~/.bashrc

3.5　查看hadoop版本

[[email protected] ~]$ hadoop version

Spark学习之路（五）Spark伪分布式安装

3.6　创建文件夹

文件夹的路径参考配置文件hdfs-site.xml里面的路径

[[email protected] ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
[[email protected] ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

3.7　Hadoop的初始化

[[email protected] ~]$ hadoop namenode -format

Spark学习之路（五）Spark伪分布式安装

3.8　启动HDFS和YARN

[[email protected] ~]$ start-dfs.sh
[[email protected] ~]$ start-yarn.sh

Spark学习之路（五）Spark伪分布式安装

3.9　检查WebUI

浏览器打开端口50070：http://hadoop1:50070

Spark学习之路（五）Spark伪分布式安装

其他端口说明：
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode

回到顶部

四、Scala的安装（可选）

使用root安装

4.1　下载

Scala下载地址http://www.scala-lang.org/download/all.html

选择对应的版本，此处在Linux上安装，选择的版本是scala-2.11.8.tgz

4.2　上传解压缩

[[email protected] hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

4.3　配置环境变量

[[email protected] hadoop]# vi /etc/profile

#Scala
export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

保存并使其立即生效

[[email protected] scala-2.11.8]# source /etc/profile

4.4　验证是否安装成功

[[email protected] ~]# scala -version

Spark学习之路（五）Spark伪分布式安装

回到顶部

五、Spark的安装

5.1　下载安装包

下载地址：

http://spark.apache.org/downloads.html

http://mirrors.hust.edu.cn/apache/

https://mirrors.tuna.tsinghua.edu.cn/apache/

5.2　上传解压缩

[[email protected] ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

5.3　为解压包创建一个软连接

[[email protected] ~]$ cd apps/
[[email protected] apps]$ ls
hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
[[email protected] apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

5.4　进入spark/conf修改配置文件

[[email protected] apps]$ cd spark/conf/

复制spark-env.sh.template并重命名为spark-env.sh，并在文件最后添加配置内容

[[email protected] conf]$ cp spark-env.sh.template spark-env.sh
[[email protected] conf]$ vi spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73
export SCALA_HOME=/usr/share/scala-2.11.8
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077

5.5　配置环境变量

[[email protected] conf]$ vi ~/.bashrc

#SPARK_HOME
export SPARK_HOME=/home/hadoop/apps/spark
export PATH=$PATH:$SPARK_HOME/bin

保存使其立即生效

[[email protected] conf]$ source ~/.bashrc

5.6　启动Spark

[[email protected] ~]$  ~/apps/spark/sbin/start-all.sh

Spark学习之路（五）Spark伪分布式安装

5.7　查看进程

Spark学习之路（五）Spark伪分布式安装

5.8　查看web界面

http://hadoop1:8080/

Spark学习之路（五）Spark伪分布式安装

Spark学习之路 （五）Spark伪分布式安装

一、JDK的安装

1.1 上传安装包并解压

1.2 配置环境变量

1.3 验证Java版本

二、配置配置ssh localhost

2.1 检测

2.2 生成私钥和公钥秘钥对

2.3 将公钥添加到authorized_keys

2.4 赋予authorized_keys文件600的权限

2.5 修改Linux映射文件(root用户)

2.6 验证

三、安装Hadoop-2.7.5

3.1 上传解压缩

3.2 创建安装包对应的软连接

3.3 修改配置文件

3.4 配置环境变量

3.5 查看hadoop版本

3.6 创建文件夹

3.7 Hadoop的初始化

3.8 启动HDFS和YARN

3.9 检查WebUI

四、Scala的安装（可选）

4.1 下载

4.2 上传解压缩

4.3 配置环境变量

4.4 验证是否安装成功

五、Spark的安装

5.1 下载安装包

5.2 上传解压缩

5.3 为解压包创建一个软连接

5.4 进入spark/conf修改配置文件

5.5 配置环境变量

5.6 启动Spark

5.7 查看进程

5.8 查看web界面

相关推荐

Spark学习之路（五）Spark伪分布式安装

1.1　上传安装包并解压

1.2　配置环境变量

1.3　验证Java版本

2.1　检测

2.2　生成私钥和公钥秘钥对

2.3　将公钥添加到authorized_keys

2.4　赋予authorized_keys文件600的权限

2.5　修改Linux映射文件(root用户)

2.6　验证

3.1　上传解压缩

3.2　创建安装包对应的软连接

3.3　修改配置文件

3.4　配置环境变量

3.5　查看hadoop版本

3.6　创建文件夹

3.7　Hadoop的初始化

3.8　启动HDFS和YARN

3.9　检查WebUI

4.1　下载

4.2　上传解压缩

4.3　配置环境变量

4.4　验证是否安装成功

5.1　下载安装包

5.2　上传解压缩

5.3　为解压包创建一个软连接

5.4　进入spark/conf修改配置文件

5.5　配置环境变量

5.6　启动Spark

5.7　查看进程

5.8　查看web界面