我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

大数据时代

近年来,“大数据”已然成为IT界如火如荼的词,与“云计算"并驾齐驱,成为带动IT行业发展的两列高速火车。尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石。

那么,如何把“死”的数据变成真正有效的“资源",成为近年来IT界人士共同思考的问题。一时间,各种大数据处理技术如井喷一般涌现。Hadoop. Spark、Storm、Dremel、Drill等大数据解决方案争先恐后地展现出来。需要说明的是,这里所有的方案并不是一一种技术,而是数种甚至数十种技术的组合。就拿Hadoop来说,Hadoop 只是“领头羊",关键成员还有MapReduce、HDFS、Hive、 HBase、Pig、ZooKeeper等,大有“八仙过海,各显神通”的气势和场面。

 

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

数据就是金库

从大数据的类型来看,大致可分为三类。

1.传统企业数据:包括CRM Systems的消费者数据、传统的ERP数据、库存数据及账目数据等。

2.机器和传感器数据:包括呼叫记录、智能仪表、I业设备传感器、设备日志、交易数据等。越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将会从中渔利。这些机器传感数据都属于大数据的范畴。

3.社交数据:包括用户行为记录、反馈数据等。如Titter、Facebook 这样的社交媒体平台。计算机产生的数据可能包含着关于因特网和其他使用者行动与行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认知。还有人们通过电子邮件、短信、微博等产生的文本信息。

今天为大家推荐的书籍就是关于大数据处理之道的书籍,如果大家需要可以“书籍”二字,即可免费领取啦!

内容简介

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

第一篇Hadoop军营

1.Hadoop 一石激起千层浪

1.1 Hadoop诞生——不仅仅是玩具

1.2 Hadoop 发展一一各 路英雄集结

1.3 Hadoop 和它的小伙伴们

1.4 Hadoop 应用场景

1.5 小结

2.MapReduce奠定基石

2.1 MapReduce 设计思想

2.2 MapReduce 运行机制

2.2.1 MapReduce 的组成

2.2.2 MapReduce 作业运行流程.

2.2.3 JobTracker 解剖

2.2.4 TaskTracker 解剖

2.2.5失败场景分析

2.3 MapReduce 实例分析

2.3.1运行 WordCount程序......

2.3.2 WordCount 源码分析

2.4小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

3分布式文件系统

3.1群雄 并起的DFS

3.2 HDFS 文件系统

3.2.1 HDFS 设计与架构

3.2.2 HDFS 操作与API-

3.2.3 HDFS 的优点及适用场景..

3.2.4 HDFS 的缺点及改进策略..

3.3小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

4Hadoop体系的“四剑客”

4.1数据仓库工具 Hvei

4.1.1 Hive 缘起何处.

4.1.2 Hive 和数据库的区别.

4.1.3 Hive 设计思想与架构.

4.1.4适用场景

4.2大数据仓库HBase

4.2.2 HBase 的设计思想和架构

4.2.3 HBase 优化技巧

4.2.4 HBase 和Hive的区别

4.3 Pig 编程语言

4.3.1 Pig 的缘由

4.3.2 Pig 的基本架构

4.3.3 Pig 与Hive的对比

4.3.4 Pig 的执行模式

4.3.5 Pig Latin语言及其应用.

4.4协管员Zooeer

4.4.1 ZooKeeper 是什么

4.4.2 ZooKeeper 的作用

4.4.3 ZooKeeper 的架构

4.4.4 ZooKeeper 的数据模型

4.4.5 ZooKeeper 的常用接口及操作

4.4.6 ZooKeeper 的应用场景分析

4.5小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

5Hadoop资源管理与调度

5.1 Hadoop 调度机制.

5.1.1 FIFO

5.1.2计算能力调度器

5.1.3公平调度器

5.2 Hadoop YARN资源调度

5.2.1 YARN 产生的背

5.2.2 Hadoop YARN的架构

5.2.3 YARN 的运作流程.

5.3 Apache Mesos资源调度

5.3.1 Apache Mesos的起因

5.3.2 Apache Mesos的架构

5.3.3基于Mesos的Hadoop

5.4 Mesos 与YARN对比

5.5小结

6.Hadoop集群管理之道

6.1 Hadoop 集群管理与维护

6.1.1 Hadoop 集群管理

6.1.2 Hadoop 集群维护

6.2 Hadoop 集群调优

6.2.1 Linux 文件系统调优

6.2.2 Hadoop 通用参数调整

6.2.3 HDFS相关配置

62.4 MapReduce 相关配置

6.2.5 Map 任务相关配置

6.2.6 HBase 搭建重要的HDFS参数

6.3 Hadoop 集群监控.

6.3.1 Apache Ambari监控

6.3.2 Ganglia 监控Hadoop

6.4小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

第二篇Spark星火燎原

7.Spark宝刀出鞘

7.1 Spark 的历史渊源

7.1.1 Spark 的诞生

7.1.2 Spark 的发展

7.2 Spark 和Hadoop MapReduce对比

7.3 Spark 的适用场景

7.4 Spark 的硬件配置

7.5 Spark 架构

7.5.1 Spark 生态架构

7.5.2 Spark 运行架构

7.6小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

8.Spark核心RDD

8.1 RDD 简介

8.1.1什么是RDD

8.1.2为什么需要RDD

8.1.3 RDD本体的设计

8.1.4 RDD 与分布式共享内存

8.2 RDD 的存储级别

8.3 RDD 依赖与容错

8.3.1 RDD 依赖关系

8.3.2 RDD 容错机制

8.4RDD操作与接口

8.4.1 RDD Transformation操作与接口.

8.4.2 RDD Action操作与接口

8.5 RDD 编程示例

8.6小结

9Spark运行模式和流程

9.1 Spark 运行模式.

9.1.1 Spark 的运行模式列表

9.1.2 Local 模式

9.1.3 Standalone 模式

9.1.4 Spark on Mesos模式

9.1.5 Spark on YARN模式

9.1.6 Spark on EGO模式

9.2 Spark 作业流程

9.2.1 YARN-Client 模式的作业流程

9.2.2 YARN-Cluster 模式的作业流程

9.3小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

10.Shark和Spark SQL

10.1从Shark到Spark

10.1.1 Shark 的撤退是进攻

10.1.2 Spark SQL接力

10.1.3 Spark SQL与普通SQL的区别

10.2 Spark SQL应用架构

10.3 Spark SQL之DataFrame

10.3.1什 么是DaraFa

10.3.2 DataFrame 的创建.

10.3.3 DataFrame 的使用.

10.4 Spark SQL运行过程分析

10.5小结..

11.Spark Streaming流数据处理新贵

11.1 Spark Streaming是什么

11.2 Spark Streaming的架构

11.3 Spark Streaming的操作

11 3.1 Spark Strearming的Transformation操作

11.3.2 Spark Streaming的Window操作

11.3.3 Spark Streaming的Output操作.

11.4 Spark Streaming性能调优

11.5小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

12.Spark GraphX图计算系统

12.1图计算系统

12.1.1图存 储模式

12.1.2图计算模式.

12.2 Spark GraphX的框架

12.3 Spark GraphX的存储模式.

12.4 Spark GraphX的图运算符.

12.5小结

13.Spark Cluster管理

13.1 Spark Cluster部署

13.2 Spark Cluster管理与监控

13.2.1内存优化机制

13.2.2 Spark 日志系统

13.3 Spark 高可用性

13.4小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

第3篇其他大数据处理技术

14.专为流数据而生的Storm

14.1 Storm 起因

14.2 Storm 的架构与组件.

14.3 Storm 的设计思想

14.4 Storm 与Spark的区别.

14.5 Storm 的适用场景.

14.6Storm的应用

14.7小结

15.Dremel和Drill

15.1 Dremel 和Drill的历史背景.

15.2 Dremel 的原理与应用

15.3 Drill 的架构与流程

15.4 Dremel 和Drill的适用场景与应用.

15.5小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

第4篇大数据下的日志分析系统

16.日志分析解决方案

16.1百花齐放的日志处理技术

16.2日志处理方案ELK

16.2.1 ELK 的三大金刚.

16.2.2 ELK 的架构.

16.2.3 ELK 的组网形式.

16.3 Logstash 日志收集解析

16.3.1 Input Plugins及应用示例

16.3.2 Filter Plugins及应用示例

16.3.3 Output Plugins及应用示例

16.4 ElasticSearch 存储与搜索

16.4.1 ElasticSearch 的主要概念

16.4.2 ElasticSearch Rest API

16.5 Kibana 展示

16.6小结

17ELK集群部署与应用

17.1 ELK 集群部署与优化

17.1.1 ELK HA集群部署

17.1.2 ElasticSearch

17.2如何开 发自己的插件

17.3 ELK 在大数据运维系统中的应用.

17.4 ELK 实战应用

17.4.1ELK监控Spark集群

17.4.2 ELK 监控系统资源状态

17.4.3 ELK 辅助日志管理和故障排查

17.5小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill

 

 

第5篇数据分析技术前景展望

18.大数据处理的思考与展望

18.1大数据时代的思考

18.2大数据 处理技术的发展趋势

18.3小结

我理解的大数据和你理解有何不同?Hadoop、Spark、Storm、Drill