pyspark读写hdfs，parquet文件

分类: 文章 • 2024-03-18 11:09:16

#-*- coding:utf-8 -*-
import  json
from pyspark.sql import SparkSession
#连接集群
spark = SparkSession.builder.master("yarn-client").appName("test").getOrCreate()
#读取数据，数据位置‘hdfs://bd01:8020/user/root/part*.parquet’
df=spark.read.format('parquet').load('hdfs://bd01:8020/user/root/part*.parquet')
print df.show()
#写数据到‘data_result_path’位置，overwrite方式可更改
data.write.mode('overwrite').parquet(data_result_path)

df：
pyspark读写hdfs，parquet文件

pyspark读写hdfs，parquet文件

相关推荐