Spark学习笔记

Spark学习笔记

0.RDD:(弹性分布式数据集（resilient/rɪ'zɪlɪənt]/ distributed dataset))。【并行计算】-不可变

RDD 是 Spark 对分布式数据和计算的基本抽象。

1.Spark支持任何实现了Hadoop接口的存储系统。Spark支持的Hadoop输入格式包括文本文件、SequenceFile、Avro、Parquet等。

2.Spark不支持Python3

3.Spark可以作即时数据分析

4.Spark的主要特点是能够在内存中进行计算。

5.降低日志级别：【在spark/conf/log4j.properties.template复制出来一份修改为log4j.properties文件】

原：

log4j.rootCategory=INFO, console

修改为：只显示警告及更严重的信息

log4j.rootCategory=WARN, console

目的是：减少控制台的输出

6.python和scala的代码风格

python没有变量类型，scala定义了变量类型

7.Spark核心概念：

每一个Spark应用程序，都有一个驱动器程序（driver program）

驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连接。如果有了SparkContext对象，就可以创建RDD了。

驱动器程序一般要管理多个执行器（executor）节点。进行并行的数据分析。

【如下图展示】

SparkContext方法只传递两个参数：集群URL[ new SparkConf().setMaster("local")]和应用名[setAppName("My App")]

【local:这个特殊值可以让Spark运行在单机单线程上不用连接集群】

【RDD基础】