pyspark程序 从hdfs上读取文件,并将结果存回到hdfs

本次使用到的数据文件
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
导入必要的包,因为用到的是pyspark,最好导入findspark,可以避免一些看不懂的错误
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
初始化sparkcontext,local为本地工作方式,topapp为随意取的名字
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
从hdfs上读取文件,并输出第一行看数据结构方便后面操作
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
将text转化为list对象(rdd调用collect后变为list对象)
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
自定义函数,将list数据按空格切开
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
将text2转化为dataframe对象,
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
将武将按武力值排序。
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
取出武力值top5,如果想取10,则是head(10)。
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
将dataframe转化为spark dataframe,并将结果存入hdfs
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs
在命令行中查看结果(一长串为自动生成的名字)
pyspark程序 从hdfs上读取文件,并将结果存回到hdfs