实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

新到公司实习,在公司电脑上配置了一遍环境,今天又在自己笔记本上配置了一遍,记录下来以便以后翻阅。

1、winSCP和Xshell

刚进公司会分配给一个端口和账号,首先使用Xshell登录hadoop集群,把集群里面的数据下载到自己账户里面。

然后再用winSCP把集群账号上的数据下载到本地

这两个东西可以独立安装,也可以更改安装路径。

安装包源链接网址:

winSCP:   官网链接(需要用IE浏览器打开)

Xshell: 6.0**版(****)

安装包百度云地址:链接:https://pan.baidu.com/s/1DE0znWzirsgGq8af5Ch6Tw 密码:wey0


接下来的配置主要参考了两篇博客:

java_scala_idea的配置

词袋统计测试程序

2、java环境配置

下载链接:注意同意条款才可以下载

百度云链接:链接:https://pan.baidu.com/s/1umj9iv4ZJo-5r-p5B2xHvw 密码:uoc6

首先要下载java包,我把它们都安装到了L:/java目录下。配置环境变量的时候对应改成:

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建


3、安装scala

下载链接:官网

百度云链接:链接:https://pan.baidu.com/s/1MgWK1taGpAm7A2upt26DDQ 密码:ewtj

进入官网后选择:.msi文件安装,同样安装到了L盘。

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

添加环境变量:

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

4、idea的安装

官网下载:点击打开链接

百度云(ultimate):链接:https://pan.baidu.com/s/1jQGrOFigCOatoBCJpe9nVA 密码:0gpk

安装的是ultimate版本。(这次是用学校邮箱注册的,在按照过程中会让你填邮箱)

另外就是安装scala的时候要选择语言(languages)项。

实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建

5、配置saprksql

注意在新建项目时,要选择java包(如果配置java时选择默认安装路径就会自动识别),否则在更新sbt配置的时候会报错:

Error:Intellij: Cannot determine Java VM executable in selected JDK

在导入java包文件路径之后,在sbt中输入以下代码可以成功配置:

 name := "scala"

version := "0.1"

scalaVersion := "2.11.7"

//libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"
libraryDependencies ++= Seq("com.databricks" %% "spark-avro" % "4.0.0",
  "org.apache.spark" %% "spark-sql" % "2.0.1",
  "org.apache.spark" %% "spark-core" % "2.0.1") 

1、这一段代码来自于国外网友的sbt设置,如果分段写libraryDependencies运行会报错。

2、另一个关键问题在于spark-sql和spqrk-core的版本要一致(一般spark-core是2.XX,sql也是2.XX),以及scala的版本要和spark-core一致,这个可以取spark官网查。如果不修改下载源的话,需要耐心等待大概15分钟左右。

3、PS:新建sbt工程后会有默认的scalaVersion ,可以随意修改其版本,我安装的是2.11.0,这里改成了2.11.7。

到这一步,就可以创建一个熟悉的saprkSQL的DataFrame啦。