Spark学习笔记

Spark学习笔记
0.RDD:(弹性分布式数据集(resilient/rɪ'zɪlɪənt]/ distributed dataset))。【并行计算】-不可变
   RDD 是 Spark 对分布式数据和计算的基本抽象。
1.Spark支持任何实现了Hadoop接口的存储系统。Spark支持的Hadoop输入格式包括文本文件、SequenceFile、Avro、Parquet等。
2.Spark不支持Python3
3.Spark可以作即时数据分析
4.Spark的主要特点是能够在内存中进行计算。
5.降低日志级别:【在spark/conf/log4j.properties.template复制出来一份修改为log4j.properties文件
原:
log4j.rootCategory=INFO, console
修改为:只显示警告及更严重的信息
log4j.rootCategory=WARN, console
目的是:减少控制台的输出
6.python和scala的代码风格
python没有变量类型,scala定义了变量类型
7.Spark核心概念:
每一个Spark应用程序,都有一个驱动器程序(driver program)
驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连 接。如果有了SparkContext对象,就可以创建RDD了。
驱动器程序一般要管理多个执行器(executor)节点。进行并行的数据分析。
【如下图展示】
Spark学习笔记
Spark学习笔记
Spark学习笔记
SparkContext方法只传递两个参数:集群URL[ new SparkConf().setMaster("local")]和应用名[setAppName("My App")]
【local:这个特殊值可以让Spark运行在单机单线程上不用连接集群】
【RDD基础】