pyspark程序从hdfs上读取文件，并将结果存回到hdfs

本次使用到的数据文件
pyspark程序从hdfs上读取文件，并将结果存回到hdfs
导入必要的包，因为用到的是pyspark，最好导入findspark，可以避免一些看不懂的错误

初始化sparkcontext，local为本地工作方式，topapp为随意取的名字

从hdfs上读取文件，并输出第一行看数据结构方便后面操作
pyspark程序从hdfs上读取文件，并将结果存回到hdfs
将text转化为list对象（rdd调用collect后变为list对象）

自定义函数，将list数据按空格切开

将text2转化为dataframe对象，

将武将按武力值排序。

取出武力值top5，如果想取10，则是head(10)。
pyspark程序从hdfs上读取文件，并将结果存回到hdfs
将dataframe转化为spark dataframe，并将结果存入hdfs

在命令行中查看结果（一长串为自动生成的名字）

pyspark程序 从hdfs上读取文件，并将结果存回到hdfs

相关推荐

pyspark程序从hdfs上读取文件，并将结果存回到hdfs