新到公司实习，在公司电脑上配置了一遍环境，今天又在自己笔记本上配置了一遍，记录下来以便以后翻阅。

1、winSCP和Xshell

刚进公司会分配给一个端口和账号，首先使用Xshell登录hadoop集群，把集群里面的数据下载到自己账户里面。

然后再用winSCP把集群账号上的数据下载到本地

这两个东西可以独立安装，也可以更改安装路径。

安装包源链接网址：

winSCP: 官网链接（需要用IE浏览器打开）

Xshell: 6.0**版（****）

安装包百度云地址：链接：https://pan.baidu.com/s/1DE0znWzirsgGq8af5Ch6Tw 密码：wey0

接下来的配置主要参考了两篇博客：

java_scala_idea的配置

词袋统计测试程序

2、java环境配置

下载链接：注意同意条款才可以下载

百度云链接：链接：https://pan.baidu.com/s/1umj9iv4ZJo-5r-p5B2xHvw 密码：uoc6

首先要下载java包，我把它们都安装到了L:/java目录下。配置环境变量的时候对应改成：

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

3、安装scala

下载链接：官网

百度云链接：链接：https://pan.baidu.com/s/1MgWK1taGpAm7A2upt26DDQ 密码：ewtj

进入官网后选择：.msi文件安装，同样安装到了L盘。

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

添加环境变量：

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

4、idea的安装

官网下载：点击打开链接

百度云（ultimate）：链接：https://pan.baidu.com/s/1jQGrOFigCOatoBCJpe9nVA 密码：0gpk

安装的是ultimate版本。（这次是用学校邮箱注册的，在按照过程中会让你填邮箱）

另外就是安装scala的时候要选择语言(languages)项。

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

5、配置saprksql

注意在新建项目时，要选择java包（如果配置java时选择默认安装路径就会自动识别），否则在更新sbt配置的时候会报错：

Error:Intellij: Cannot determine Java VM executable in selected JDK

在导入java包文件路径之后，在sbt中输入以下代码可以成功配置：

name := "scala"

version := "0.1"

scalaVersion := "2.11.7"

//libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"
libraryDependencies ++= Seq("com.databricks" %% "spark-avro" % "4.0.0",
"org.apache.spark" %% "spark-sql" % "2.0.1",
"org.apache.spark" %% "spark-core" % "2.0.1")

1、这一段代码来自于国外网友的sbt设置，如果分段写libraryDependencies运行会报错。

2、另一个关键问题在于spark-sql和spqrk-core的版本要一致（一般spark-core是2.XX，sql也是2.XX），以及scala的版本要和spark-core一致，这个可以取spark官网查。如果不修改下载源的话，需要耐心等待大概15分钟左右。

3、PS：新建sbt工程后会有默认的scalaVersion ，可以随意修改其版本，我安装的是2.11.0，这里改成了2.11.7。

到这一步，就可以创建一个熟悉的saprkSQL的DataFrame啦。

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

1、winSCP和Xshell

接下来的配置主要参考了两篇博客：

2、java环境配置

3、安装scala

4、idea的安装

5、配置saprksql

Error:Intellij: Cannot determine Java VM executable in selected JDK

相关推荐