java编写WordCound的Spark程序,Scala编写wordCound程序
1、创建一个maven项目,项目的相关信息如下:
<groupId>cn.toto.spark</groupId> <artifactId>bigdata</artifactId> <version>1.0-SNAPSHOT</version> |
2、修改Maven仓库的位置配置:
3、首先要编写Maven的Pom文件
<?xml version="1.0" encoding="UTF-8"?> <groupId>cn.toto.spark</groupId> <properties> <dependencies> <dependency> <dependency> <build> <plugin> </project> |
4、编写Java代码
package cn.toto.spark; import org.apache.spark.SparkConf; import java.util.Arrays; /** public static void main(String[] args) { //保存 |
5、准备数据
数据放置在E:\wordcount\input中:
里面的文件内容是:
6、通过工具传递参数:
7、运行结果:
8、scala编写wordCount
单词统计的代码如下:
import org.apache.spark.rdd.RDD /** def main(args: Array[String]) { val conf = new SparkConf().setAppName("ScalaWordCount") //textFile方法生成了两个RDD: HadoopRDD[LongWritable, Text] -> MapPartitionRDD[String] //Map方法生成了一个MapPartitionRDD[(String, Int)] val counts: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_) val sortedCounts: RDD[(String, Int)] = counts.sortBy(_._2, false) } |