（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

package com.bjsxt;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;

public class CreateDFFromParquet {
   public static void main(String[] args) {
       SparkConf conf=new SparkConf().setAppName("test").setMaster("local");
       JavaSparkContext sc=new JavaSparkContext(conf);
       SQLContext sqlContext=new SQLContext(sc);
       DataFrame df = sqlContext.read().format("json").load("./json");
       df.show();
       /**
       * 将DataFrame保存成parquent文件
       * SaveMode指定存储文件时的保存模式
       * OverWrite:覆盖
       * Append:追加
       * ErrorIfExist:如果存在就报错
       * Ignore:如果存在就忽略
       * 保存成parquent文件有以下两种方式
       */
       //df.write().mode(SaveMode.Append).format("parquet").save("./sdf/parquent");
       df.write().mode(SaveMode.Append).parquet("./sdf/parquent");
       /**
       * 加载parquent文件程DataFrame
       * 加载parquent文件有以下两种方式
       */
       //DataFrame load = sqlContext.read().format("parquet").load("./sdf/parquent");
       DataFrame load = sqlContext.read().parquet("./sdf/parquent");
       load.show();
       sc.stop();
   }
}

（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

相关推荐