(DataFrame部分)从文件中读取文件,写入文件,然后再从写入的文件中读取文件,在控制台打印出【Java版纯代码】
package com.bjsxt;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;
public class CreateDFFromParquet {
public static void main(String[] args) {
SparkConf conf=new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc=new JavaSparkContext(conf);
SQLContext sqlContext=new SQLContext(sc);
DataFrame df = sqlContext.read().format("json").load("./json");
df.show();
/**
* 将DataFrame保存成parquent文件
* SaveMode指定存储文件时的保存模式
* OverWrite:覆盖
* Append:追加
* ErrorIfExist:如果存在就报错
* Ignore:如果存在就忽略
* 保存成parquent文件有以下两种方式
*/
//df.write().mode(SaveMode.Append).format("parquet").save("./sdf/parquent");
df.write().mode(SaveMode.Append).parquet("./sdf/parquent");
/**
* 加载parquent文件程DataFrame
* 加载parquent文件有以下两种方式
*/
//DataFrame load = sqlContext.read().format("parquet").load("./sdf/parquent");
DataFrame load = sqlContext.read().parquet("./sdf/parquent");
load.show();
sc.stop();
}
}