win7下 pyspark+pycharm的结合使用
个人使用python的时候喜欢用pycharm,安装好spark后同样也想在其中使用,这需要一些配置,希望对有同样需求的人有所帮助
ps:由于配置时没有马上做记录,中间有些过程忘了,可能会有其他问题,欢迎提出,看到尽快回复
(1)打开pycharm,打开设置选项
(2)输入python console ,如下
(3)下面是一个测试代码,统计词频的
from pyspark.context import SparkContext sc = SparkContext("local", "WordCount") #初始化配置 data = sc.textFile("a.txt") #自己随便写的一个txt counts = data.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) counts.saveAsTextFile('count_result') #结果就在count_result这个文件夹里面