实习-winSCP /Xshell /idea /scala /spark 安装包及新环境搭建
新到公司实习,在公司电脑上配置了一遍环境,今天又在自己笔记本上配置了一遍,记录下来以便以后翻阅。
1、winSCP和Xshell
刚进公司会分配给一个端口和账号,首先使用Xshell登录hadoop集群,把集群里面的数据下载到自己账户里面。
然后再用winSCP把集群账号上的数据下载到本地
这两个东西可以独立安装,也可以更改安装路径。
安装包源链接网址:
winSCP: 官网链接(需要用IE浏览器打开)
Xshell: 6.0**版(****)
安装包百度云地址:链接:https://pan.baidu.com/s/1DE0znWzirsgGq8af5Ch6Tw 密码:wey0
接下来的配置主要参考了两篇博客:
2、java环境配置
下载链接:注意同意条款才可以下载
百度云链接:链接:https://pan.baidu.com/s/1umj9iv4ZJo-5r-p5B2xHvw 密码:uoc6
首先要下载java包,我把它们都安装到了L:/java目录下。配置环境变量的时候对应改成:
3、安装scala
下载链接:官网
百度云链接:链接:https://pan.baidu.com/s/1MgWK1taGpAm7A2upt26DDQ 密码:ewtj
进入官网后选择:.msi文件安装,同样安装到了L盘。
添加环境变量:
4、idea的安装
官网下载:点击打开链接
百度云(ultimate):链接:https://pan.baidu.com/s/1jQGrOFigCOatoBCJpe9nVA 密码:0gpk
安装的是ultimate版本。(这次是用学校邮箱注册的,在按照过程中会让你填邮箱)
另外就是安装scala的时候要选择语言(languages)项。
5、配置saprksql
注意在新建项目时,要选择java包(如果配置java时选择默认安装路径就会自动识别),否则在更新sbt配置的时候会报错:
Error:Intellij: Cannot determine Java VM executable in selected JDK
在导入java包文件路径之后,在sbt中输入以下代码可以成功配置:
version := "0.1"
scalaVersion := "2.11.7"
//libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"
libraryDependencies ++= Seq("com.databricks" %% "spark-avro" % "4.0.0",
"org.apache.spark" %% "spark-sql" % "2.0.1",
"org.apache.spark" %% "spark-core" % "2.0.1")
1、这一段代码来自于国外网友的sbt设置,如果分段写libraryDependencies运行会报错。
2、另一个关键问题在于spark-sql和spqrk-core的版本要一致(一般spark-core是2.XX,sql也是2.XX),以及scala的版本要和spark-core一致,这个可以取spark官网查。如果不修改下载源的话,需要耐心等待大概15分钟左右。
3、PS:新建sbt工程后会有默认的scalaVersion ,可以随意修改其版本,我安装的是2.11.0,这里改成了2.11.7。
到这一步,就可以创建一个熟悉的saprkSQL的DataFrame啦。