大数据第一次作业

*1、什么是云计算

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态交易扩展且经常是虚拟化的资源。云就是网络、互联网的一种比喻说法,过去云表示电信网,后来也用来表示互联网和底层基础设施。现阶段广为接受的对云计算的定义是:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒种)完成对数以万计的数据的处理,从而达到强大的网络服务。
现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
*

2、云计算的关键技术*

云计算关键技术主要包括数据储存技术和数据管理技术以及编程模式。
其中关键技术包括:
(1)虚拟化技术
大数据第一次作业

(2)分布式资源管理技术
大数据第一次作业

(3)并行编程技术

大数据第一次作业
*

3、云计算的主要特点*

1、虚拟化。
云计算支持用户在任意位置,使用各种终端获取应用服务
2、规模化整合
3、高可靠性
云使用多副本容错技术、计算节点同构可互换等措施来保障服务的高可靠性
4、高可扩展性
5、按需服务
使用者可以根据需求来进行购买
6、成本低
7、通用性
云计算不针对特定的应用
8、潜在危险性

4、什么是集群?集群的类型有哪些

什么是集群

集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源,这些单个的计算机系统就是集群的节点(node)。集群提供了以下关键的特性。

什么是集群技术

集群技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。

集群的关键特性
(一)可扩展性
(二)高可用性
(三)负载均衡
(四)错误恢复

集群主要分成三大类:

HA:高可用集群(High Availability Cluster)。

LBC:负载均衡集群/负载均衡系统(Load Balance Cluster)

HPC:科学计算集群(High Performance Computing Cluster)/高性能计算(High Performance Computing)集群。

5、什么是MPI

MPI是一种基于信息传递的并行编程模型,不同进程间通过信息交换数据。
MPI基于信息传递的并行计算框架,MPI从数据存储节点读取需要处理的数据分配给各个计算节点——>数据处理,其特点是数据存储和数据处理是分离的,用计算换通信,无法应对节点失效。适用于各种复杂应用的并行计算,支持多程序多数据,开发复杂度高

6、什么是网格计算

网格计算是分布式计算的一种,是专门针对复杂科学计算的新型计算模式。
这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。

7、mpi、网格计算和云计算的区别

1、mpi基于计算切分;云计算基于数据切分;而网格计算基于数据和计算切分,属于混合切分
2、云计算没有用户参与,并行计算由单个用户参与,分布式计算由多个用户合作完成
3、概念不一样
并行计算 - 并行计算是相对于串行计算,时间上并行即流水线技术,空间上并行即多个处理器同时计算,即解决单个处理器性能问题
网格计算 - 将异构多余的计算机资源组成一个虚拟计算集群,也用于解决大规模复杂问题。网格计算的焦点放在支持跨管理域计算的能力,这使它与传统的计算机集群或传统的分布式计算相区别。
云计算 - 云计算是最新开始的新概念,它不只是计算等计算机概念,还有运营服务等概念了。它是分布式计算、并行计算和网格计算的发展,或者说是这些概念的商业实现。云计算不但包括但不限于分布式计算还包括分布式存储、缓存。
大数据第一次作业
4、 云计算是将一台设备通过虚拟化拆分成多台虚拟机器使用; 网格计算式将多台设备合并成一台设备使用。

8、什么是计算切分?什么是数据切分?

数据切分(Sharding)是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。数据的切分同时还可以提高系统的总体可用性,因为单台设备Crash之后,只有总体数据的某部分不可用,而不是所有的数据。

数据的切分(Sharding)根据其切分规则的类型,可以分为两种切分模式。一种是按照不同的表(或者Schema)来切分到不同的数据库(主机)之上,这种切可以称之为数据的垂直(纵向)切分;另外一种则是根据表中的数据的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库(主机)上面,这种切分称之为数据的水平(横向)切分。

9、云计算与大数据的关系

1、大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
2、云计算是基于互联网的相关服务的增加,使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算可以降低全社会的IT耗能,减少排放,真正做到绿色计算。提高全社会的IT设备使用率,并且降低电子产品的数量,从而减少因为设备淘汰而产生的电子产品垃圾,对于保护环境大有裨益。此外,对于个人中小企业和机构也用的起高性能的计算。

从两者的概念我们可以看出来,云计算和大数据是相辅相成的关系,基于大数据才可以进行云计算,两者相互作用才可以在现在的互联网世界进行管理和模拟。

大数据与云计算的关系就像一枚硬币的正反面一样密不可分。
大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据也吸引了越来越多的关注。分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费很多的财力和物力。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要框架来向数十、数百或甚至数千的电脑分配工作。并且,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。