云计算与分布式系统——课程学习笔记(一)

大数据对于系统架构的需求

显式的需求

  • 海量计算和存储
  • 快速计算
    隐式的需求
  • 数据的快速传输
  • 灵活性
  • 低成本

如何实现这些需求?
并行化(并行化的理念存在于计算机方方面面)

  • 并行请求(分配给多个计算机)
  • 并行线程(分配给多个处理器核心)
  • 并行指令(同一时刻有多于一条指令)
  • 并行数据(同一时刻有多于1个数据项 )
  • 硬件描述(同一时刻使用所有门电路)

规模经济(极端规模的并行化:仓库规模的计算机 WSC)

  • 主要部件 —— 供电、制冷、建筑、网络、安全、存储、计算
  • 优势 —— 规模经济、提高使用率
  • 挑战 —— 能耗PUE、运维

WSC是用网络连接起来的计算和存储设备
WSC的特点:
1、使用相对同质的硬件和系统软件平台
2、共享相同的系统管理
3、大多数应用程序、中间件、系统软件都是自主开发,而传统数据中心则由第三方软件主导
4、WSC运行相对小数目的超大型程序(或服务)
5、通用的资源管理架构增强了部署的灵活性

虚拟化(抽象)

云计算的商业模式概述
—— 云计算的定义
云计算 Cloud computing 既指作为服务通过互联网提供的应用程序(SaaS模式),又指提供这些服务的,位于数据中心的硬件和系统软件(公用计算)
:数据中心硬件与软件
公有云:用即付即用的模式,开放给大众使用的云
私有云:一个企业或组织内部的数据中心
公用计算:给人以无限资源的错觉
—— 云计算商业模式的三大特点

  • 按需服务
  • 资源池
  • 可测量的服务

—— 云计算发展的市场条件

  • 大规模互联网应用(社交网络、多媒体)
    1、规模经济
    2、需求增长促进数据中心建设增长
    3、无法预测的应用增长速度Zynga,Netflix
  • 大数据应用
    1、日志分析
    2、机器学习应用

云计算的价值
云计算与分布式系统——课程学习笔记(一)
云计算的分类

  • 指令集虚拟机(Amazon EC2, 3Tera)
  • 运行时系统虚拟机(Microsoft Azure)
  • 框架型虚拟机(Goole AppEngine,Force.com)
  • 折衷:灵活性/可移植性
    云计算与分布式系统——课程学习笔记(一)
    为什么要虚拟化
    资源池
  • 聚合:将多个资源结合起来
  • 合一:例如存储
  • 动态:快速分配(虚拟机)

隔离:保护消费者隔离其他租客 ,例如虚拟专用网(v*n)
便于管理:测试、机动性

云计算的核心思想

  • 性能:并行化
  • 经济性:规模化、公有云
  • 可管理:虚拟化

从云计算到大数据

  • 虚拟化提供了硬件资源的抽象
  • 用户看到的接口
    (虚拟)计算节点
    (虚拟)网络
    (虚拟)存储
  • 仍然是许多独立的设备:需要分布式系统编程
  • 如何提供一个易于编程的“单一系统”感觉
    分布式存储、计算框架