pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
本次使用到的数据文件
导入必要的包,因为用到的是pyspark,最好导入findspark,可以避免一些看不懂的错误
初始化sparkcontext,local为本地工作方式,topapp为随意取的名字
从hdfs上读取文件,并输出第一行看数据结构方便后面操作
将text转化为list对象(rdd调用collect后变为list对象)
自定义函数,将list数据按空格切开
将text2转化为dataframe对象,
将武将按武力值排序。
取出武力值top5,如果想取10,则是head(10)。
将dataframe转化为spark dataframe,并将结果存入hdfs
在命令行中查看结果(一长串为自动生成的名字)